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7.1 系统 调用 Socket( ) 


相对 于 传统 的 Unix IPC, “iO”, Bll socket (有些 资 料 中 也 称 “ 食 接 字 ”)， 是 史 为 一 般 的 进程 间 
通信 机 制 。 它 既 适 用 于 同一 台 计 算 机 上 的 进程 间 通 信 ， 也 适用 于 网 络 环境 的 进程 间 通 信 ， 并 且 是 当今 
所 有 网 络 操作 系统 必 木 可 少 的 基础 功能 。 本 章 侧 重 从 同一 计算 机 上 的 进程 问 通信 的 角度 介绍 socket 在 
Linux 内 核 中 的 实现 。 至 十 它 在 网 络 环境 中 的 推广 ， 则 因 分 量 太 重 、 篇 幅 太 大 ， 只 好 六 作为 一 本 书 的 内 
容 。 

在 Unix HREF, AT&T 的 贝尔 实验 室 与 加 州 大 学 伯克利 分 校 的 伯克利 软件 发 布 中 心 (BSD) 
可 以 说 是 两 大 主力 。 当 AT&T 致力 士 改进 传统 的 Unix 进程 间 遂 信 功 能 ， 从 而 形成 了 一 整套 SysV IPC 
机 制 的 同时 ，BSD 也 在 设法 对 其 加 以 改进 。 与 此 同时 ，BSD 又 最 早 将 计算 机 网 络 的 通信 规程 ， 特 别 是 
当时 正在 成 形 的 TCP/P 规程 ， 实 现 到 Unix 的 内 核 中 去 。 所 以 ， 对 于 当时 的 BSD 来 说 ， 很 日 然 地 会 把 
二 者 结合 在 一 起 考虑 ， 把 同一 计算 机 【或 申 网 络 “ 节 点 ”) 上 的 进程 间 通信 纳入 更 广 的 、 网 络 范围 的 进 
程 间 通 信 范 畴 ， 从 而 设计 出 一 种 更 为 -- 般 化 的 进程 问 通信 机 制 。 这 种 努力 的 结果 路 是 socket 机 制 ， 这 
一 机 制 其 实 是 命名 管道 在 计算 机 网 络 环境 下 的 实现 和 推广 。 

如 果 比 较 一 下 AT&T 和 BSD 各 自在 这 方面 的 努力 ， 就 可 以 看 出 ，AT&T 是 有 系统 地 、 企 面 地 对 传 
统 的 Unix IPC 加 以 改进 。 例 如 ， 针 对 在 某 些 应 用 中 (传统 Unix IPC 的 ) 效率 不 够 高 的 缺点 ， 设 计 和 开 
发 了 共享 内 存 机 制 ; 针对 缺乏 进程 间 同 步 手 段 的 问题 ， 叉 设计 和 开发 了 用 户 空间 的 信号 量 机 制 。 男 外 ， 
管道 要 占用 打开 文件 号 ， 便 引入 了 “ 键 值 ”的 概念 ， 从 而 避 开 了 使 用 打开 文件 号 。 但 十，AT&T 的 眼 
光 始 终 只 用 着 单一 计算 机 中 的 进程 间 遂 信 。 而 BSD 则 正好 相反 ， 它 对 传统 Unix 进程 间 通 信 的 改进 并 
不 是 有 系统 的 和 全 二 的 ， 可 是 它 的 眼光 却 跳 出 了 单机 的 范围 。 虽 然 socket 机 制 在 单机 范围 内 与 AT&T 
的 报 文 传递 机 制 在 概念 上 极为 相似 ， 但 是 却 更 为 一 般 化 ， 从 而 为 后 来 网 络 技术 的 莲 勃 发 展 做 好 了 技术 
准备 。 可 以 说 ，SysV IPC 和 socket 是 互相 补充 而 不 是 各 搞 一 套 。 

至 于 Linux, Wik BAM, HOC MARR PRT. 

顾名思义 ， 一 个 socket 就 好 像 MARAT. REMAS An., FAA Zl 
有 通信 线路 相连 接 ， 就 可 以 互相 通信 了 。 从 概念 上 说 ，socket 与 管道 其 实 并 无 多 人 人 区别， 如 果 把 两 个 

"TA 


Linux Adee st CP AR 
ja Zi “ER” HM “IE”, ARAN S euam KJE3LU, ht E. — E PAA C 
THM. NA ES en BETEIR]— Gr REEL E. A (OBSS qut Mi 
却 可 以 分 别 存在 于 计算 机 网 络 中 的 不 同 节 点 b. aR, REC AMS LAB, ERARE H 
上 上 却 有 着 很 大 的 不 同 。 而 且 ， 管 道 所 传递 的 是 无 结构 的 宁 节 流 ， 而 通过 socket 传递 的 则 是 有 结构 的 报 
pn 

一 个 插口 在 逻辑 上 有 三 个 特征 ， 或 者 说 一 个 要 素 ， 那 就 是 网 域 、 类 型 以 及 规程 。 

首先 是 网 域 ， 它 表明 一 个 捅 口 是 用 十 哪 一 种 网 络 ， 或 者 说 哪 一 族 网 络 规程 的 。 由 于 各 种 网 络 对 节 
扩 地 址 的 命名 方法 不 同 ， 所 以 又 称 为 “地 址 族 ”(address family) 或 “规程 族 ”(protocol family)。 例 如 ， 
HA AF_INET 表示 互联 网 ( 英 特 网 ) 插口 ， 所 以 各 节点 都 使 用 人 P 地 址 ; 而 AF_IPX 则 为 Novell 的 IPX 
网 插口 ，AF_X25 为 X25 网 插口 ， 等 等 。 其 中 有 个 特例 ， 那 就 是 什么 网 也 不 是 ， 只 是 在 ， 台 计算 机 上 
用 于 进程 间 通 讯 ，BSD 为 这 种 特例 定义 的 域名 为 AF_UNIX。 后 来 ， 在 POSIX 标准 里 又 定义 了 一 个 
AF_LOCAL， 以 示 对 别 的 操作 系统 也 GA. 

其 次 为 “类 型 ” 它 表 明 在 网 络 中 通信 所 遵循 的 模式 。 网 络 通信 有 两 种 主要 模式 ， 一 种 称 为 “有 连 
接 ” 或 “面向 连接 ”(connection oriented) 的 通信 :; 另 一 种 则 称 为 “无 连接 ”(connectionless) 通信 。“ 有 
连接 ”模式 常常 又 称 为 “ 虚 电 路 ”(virtual circuit) 模式 。 在 这 种 模式 中 ， 通 信 的 双方 要 先 通过 定 的 
步骤 在 互相 之 问 建 立 起 一 种 虚拟 的 连接 ， 或 者 说 虚拟 的 线路 ， 然 后 骨 通 过 虚拟 的 连接 线路 进行 通信 。 
在 通信 的 过 程 中 ， 所 有 报 文 传递 都 保持 着 原来 的 次 序 ， 报 文 在 网 络 路 传输 的 过 程 中 受到 的 不 均匀 延迟 
会 在 接收 端 得 到 补偿 。 Re in a E EMR CMR AILEY. BBE, Ti 
种 模式 中 所 有 报 文 的 传递 都 是 “可 靠 ” 的 ， 由 网 络 中 物理 通信 线路 引入 的 差错 会 由 通信 规程 中 的 应 答 
和 重 发 机 制 加 以 克服 。 同 时 ， Ec ue. “流量 控制 ”的 于 段 。 从 用 广 的 角度 来 看 ,，“ 有 连 
接 ” 类 型 的 插口 对 报 文 的 传递 作出 了 承诺 。 如 果 一 个 进程 通过 系统 调用 在 一 个 “有 连接 ”插口 上 发 送 
ARX, 那么 ， 只 要 进程 从 这 次 系统 阅 用 正常 返回 ,就 赔 明 该 报 文 已 经 被 递 父 到 了 接收 方 的 插口 《但 
接收 方 进程 末 必 已 经 读 取 这 个 报 文 )。“ 无 连接 ”模式 就 不 同 了 。“ 无 连接 ”模式 常常 义 称 为 “数据 包 ” 
(datagram) 模式 ， 也 称 “ 面 向 报 文 ”的 通信 模式 〈message oriented)。 在 “无 连接 ”模式 中 并 不 需要 
事先 在 双方 之 间 建 立 起 “ 虚 电 路 ” 而 直接 就 可 以 发 送 或 接收 报 义 ， 但 是 等 个 报 文 都 是 孤立 的 ， 其 止 傅 
性 也 没有 保证 ， 甚 至 可 能 丢失 。 如 果 山 个 报 文 穿越 网 络 时 走 过 了 不 同 的 路 径 ， 或 者 甚至 相同 的 路 径 ， 
但 是 受 人 外 了 个 ~ 致 的 延迟 ， 那 么 它们 在 接收 端的 次 序 就 能 与 发 送 端 的 次 序 不 同 。 所 以 ， 由 “万 连接 ” 
模式 的 插口 所 提供 的 报 文 传递 是 不 可 靠 的 , 它 对 用 户 作出 的 承诺 只 是 “尽力 传递 ”, 但 却 是 没有 保证 的 。 
此 外 ， 在 “ 尤 连 接 ” 模 式 中 也 没有 “流量 控制 ”手段 。 如 果 一 个 进程 通过 系统 调用 侍 一 个 “无 连接 ” 
插口 上 发 送 一 个 报 广 ， 那 么 当 进 程 从 这 次 系统 调用 止 常 返 叫 时 只 是 说 明 该 插口 将 会 例行公事 地 将 报 文 
传递 到 接收 方 ， 但 并 不 表示 这 报 文 已 经 到 达 了 接收 方 的 插口 。 从 另 一 个 角度 ， 还 可 以 说 ,“ 有 连接 ” 插 
口 的 报 文 传递 是 同步 的 ， 而 “无 连接 ”插口 的 报 义 传递 则 是 异步 的 。 

最 后 是 “规程 ”， 它 表明 其 体 的 网 络 规程 。 一 般 来 说 ， 网 域 和 类 型 结合 在 一 起 大 体 上 就 确定 了 适用 
的 规程 。 例 如 ， 要 是 网 域 为 AF_INET， 而 类 型 为 “大 连 接 ”， 则 规程 基本 上 就 是 UDP 了 。 介 是， 在 有 
些 情况 下 还 可 能 会 有 别 的 选 拌 ， 此 时 就 山 它 米 进 一 步 明 确 具 体 的 规程 。 

其 实 ， 插 口 的 这 三 个 特征 是 互相 联系 的 ， 归 根 结 底 就 是 反映 了 :个 插口 所 这 行 的 〔〈 网 络 》 规 程 。 
由 于 在 每 个 插口 的 后 面 者 隐藏 郑 网 络 规程 ， 对 插口 的 比较 详尽 的 讨论 就 势必 要 涉及 到 计算 机 网 络 这 个 
Al. RAE PRI RAL, FETT AT Linux 内 核 由 有 关 网 络 规程 的 代码 是 不 虚实 的 ， 因 为 
Miet he te 本 书 的 材料 了 。 所 以 ， 我 们 在 本 书 中 将 只 讨论 Unix 域 的 插口 ， 也 就 是 用 于 

一 计算 机 中 进程 间 遂 信 的 插口， 隐藏 在 这 种 插口 后 而 的 规程 是 “没有 规程 ”。 


ay 
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Unix 域 的 插口 同样 也 分 两 种 模式 ， 但 是 二 者 都 提供 可 靠 的 报 文 传递 。 在 网 络 环境 下 ， 不 可 靠 性 是 
由 网 络 的 基础 设施 (如 物理 线路 ) 引起 的 ， 两 种 不 同 模式 实际 上 反映 了 对 待 物理 介质 的 不 可 靠 性 的 不 
同 态度 和 策略 。“ 有 连接 ”模式 采取 了 “大 包 大 揽 ” 的 态度 ， 企 图 在 不 可 靠 物理 介质 的 基 人 刨 上 构筑 起 一 
层 可 靠 的 报 文 传递 机 制 。 而 “无 连接 ”模式 则 采取 了 “矛盾 上 交 ” 的 态度 ， 说 “既然 物理 介质 个 可 靠 ， 
那 我 也 没有 办 法 , 只 能 有 什么 给 你 什么 ”让 用 户 自己 去 设法 克服 或 避免 由 此 而 引起 的 问题 。 可 是 , Unix 
域 的 插口 既然 只 提供 同一 台 计 算 机 上 的 进程 间 通 信 ， 而 根本 就 不 涉及 网 络 设 施 ， 其 物理 介质 实际 上 束 
是 内 存 ， 那 就 根本 不 存在 由 物理 介质 引入 的 不 可 靠 性 。 不 过 ， 尽 管 Unix 域 插口 的 两 种 模式 都 提供 可 靠 
的 报 文 传递 ， 二 者 还 是 有 区 别 的 ， 读 完 本 节 以 后 束 会 清楚 这 些 区 齐 。 

IRIT SysV IPC 操作 一 样 ，Linux 内 核 为 所 有 与 socket 有 关 的 操作 提供 一 个 统一 的 系统 调用 入 口 ， 
但 是 在 用 户 程序 界面 上 则 通过 CHEESE clib 提供 诸多 库 函 数 ， 看 起 来 就 好 像 都 是 独立 的 系统 调用 
一 样 。 内 核 中 为 socket 设置 的 总 入 口 为 Sys_socketcall( )， 其 代码 在 net/socket.c 中 : 


1512 /* 

1513 * System call vectors. 

1514 * 

1515 * Argument checking cleaned up. Saved 20% in size. 

1516 * This function doesn' t need to set the kernel lock because 
1517 * it is set by the callees. 

1518 */ 

1519 


1520 asmlinkage long sys socketcall(int call, unsigned long *args) 
1521 { 


1522 unsigned long al6]; 

1523 unsigned long a0,al; 

1524 int err; 

1525 

1526 if (call<l| |call>SYS RECVMSG) 

1527 return -EINVAL; 

1528 

1529 /* copy from user should be SMP safe. */ 
1530 if (copy from user(a, args, nargs[call])) 
1531 return -EFAULT; 

1532 

1533 a0-a[0] ; 

1534 al-al1]; 

1535 

1536 switch(call) 

1537 { 

1538 case SYS SOCKET: 

1539 err = sys socket (a0, al, a[2]) ; 
1540 break; 

1541 case SYS BIND: 

1542 err = sys bind(a0, (struct sockaddr *)al, a[2]); 
1543 break; 

1544 case SYS CONNECT: 
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err = sys_connect(a0, (struct sockaddr *)al, a[2]): 
break; 
case SYS LISTEN: 
err = sys listen(a0,al); 
break; 
case SYS ACCEPT: 
err = sys_accept (a0, (struct sockaddr *)al, (int *)a[2]); 
break; 
case SYS GETSOCKNAME: 
err = sys getsockname (a0, (struct sockaddr *)al, (int *)a[2]); 
break; 
case SYS GETPEERNAME: 
err = sys geipeername(a0, (struct sockaddr *)al, (int *)a[2]) ; 
break; 
case SYS SOCKETPAIR: 
err = sys_socketpair(a0,al, a[2], (int *)a[3]); 
break; 
case SYS SEND: 
err = sys_send(a0, (void *)al, al2], a[3]); 
break; 
case SYS SENDTO: 
err = sys sendto(a0, (void *)al, al2], a[3], 
(struct sockaddr *)a[4], a[5]); 
break; 
case SYS RECV: 
err = sys recv(a0, (void *9)al, al2], a[3D ; 
break; 
case SYS RECVFROM: 
err = sys recvfrom(a0, (void *)al, a[2], a[3], 
(struct sockaddr *)a[4], (int *)a[5]); 
break; 
case SYS SHUTDOWN: 
err = sys shutdown (a0, al); 
break; 
case SYS SETSOCKOPT: 
err = sys_setsockopt (a0, al, a[2], (char *)a[3], a[4]):; 
break; 
case SYS_GETSOCKOPT: 
err = sys_getsockopt(a0, al, a[2], (char *)a[3], (int *)a[4]); 
break; 
case SYS _SENDMSG: 
err = sys sendmsg(a0, (struct msghdr *) al, a[2]); 
break; 
case SYS RECVMSG: 
err = sys recvmsg(a0, (struct msghdr *) al, a[2]); 
break; 
default: 
err = -EINVAL; 
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1593 break ; 
1594 } 

1595 return err; 
1596 } 


函数 的 第 一 个 参数 call 即 为 具体 的 操作 码 ， 而 参数 ares 为 指向 一 个 数组 的 指针 。 根 据 具体 操作 码 
的 不 同 ， 需 要 从 用 户 空间 复制 参数 的 数量 也 不 同 。 为 了 根据 操作 码 确定 需要 从 用 户 空 间 复 制 的 字 节 数 ， 
代码 socket.c 中 定义 了 :个 数组 nargsf ]: 








1505 / Argument list sizes for sys_socketcall */ 

1506 Hdefine AL(x) (GO * sizeof(unsigned long)) 

1507 static unsigned char nargs[18]= {AL (0), AL (3), AL (3) , AL (3), AL (2) , AL(3), 
1508 AL (3), AL(3) , AL (4) , AL (4) , AL (4), AL (6), 

1509 AL (6), AL (2), AL (5), AL (5), AL(3), AL (3) } ; 

1510 #undef AL 


至 于 操作 码 ， 则 是 在 include/linux/net.h 中 定义 的 : 


30 &define SYS SOCKET 1 /* sys socket (2) */ 
31 #define SYS BIND 2 /* sys bind(2) */ 
32 tidefine SYS CONNECT 3 /* sys connect (2) */ 
33 #define SYS LISTEN 4 /* sys listen(2) */ 
34 define SYS ACCEPT 5 /* sys accept (2) */ 
35 &define SYS GETSOCKNAME 6 /* sys getsockname(2)  */ 
36 #define SYS GETPEERNAME 7 /* sys getpeername(2)  */ 
37 üdefine SYS SOCKETPAIR 8 /* sys_socketpair (2) */ 
38 #define SYS SEND 9 /* sys_send(2) */ 
39 define SYS RECV 10 /* sys recv(2) */ 
40 #define SYS SENDTO 11 /* sys_sendto(2) */ 
41 define SYS RECVFROM 12 /* sys recvfrom(2) */ 
42 Hdefine SYS SHUTDOWN 13 /* sys shutdown (2) */ 
43 Hdefine SYS SETSOCKOPT 14 /* sys setsockopt (2) */ 
44 &define SYS GETSOCKOPT 15 /* sys getsockopt (2) */ 
45 #define SYS SENDMSG 16 /* sys sendmsg (2) */ 
46 Hdefine SYS_RECVMSG 17 /* sys recvmsg (2) x/ 


注释 中 括号 里 的 “2” 表 示 所 述 的 函数 为 系统 调用 。 

我 们 先 把 这 些 操作 码 〔( 以 及 相应 的 肖 数 ) 分 下 类 ， 然 后 说 明 它 们 的 用 途 ， 最 后 再 来 看 它们 契 怎 
样 实现 的 。 

这 些 操作 码 函数) 人体 上 可 分 为 五 类 。 


7.1.1 插口 的 创建 与 撤除 


属于 这 - -类 的 操作 码 有 : 
e SYS SOCKET: 创建 :个 插口 ， 其 用 户 程序 内面 〈 由 1libc 提供 ， 下 同 ) A: 


Linux 内 核 产 代码 情景 分 析 《〈 下 册 ) 


int socket (int domain, int type, int protocol): 
这 里 的 一 个 参数 即 为 前 面 所 述 播 口 的 二 个旧 素 。 人 不过， 通常 第 一 个 参数 protocol 为 0， 因 为 一 
般 来 说 前 山 个 参数 确定 以 后 ， 呈 体 的 规程 也 就 定 了 ， 所 以 用 0 表示 默认 由 系统 根据 前 两 个 参数 
确定 的 规程 ， 只 有 在 比较 特殊 的 应 用 中 才 需 要 指定 具体 的 规程 。 振 口 创建 成 功 以 后 返回 一 个 正 
整数 ， 实 际 上 是 一 个 打开 文件 号 。 但 这 个 打 逢 文件 号 是 与 个 代表 插口 的 数据 结构 相 联系 的 ， 
并 不 是 与 磁盘 上 的 某 个 文件 相 联 系 。 
€ SYS BIND: 将 代表 者 “个 岳 口 的 打开 文件 号 与 某 一 个 域 中 的 可 寻 址 实体 或 “插口 地 址 ” 相 结 
合 。 例 如 ， 在 互联 网 中 的 可 寻 址 实体 为 网 中 以 IP 地 址 区 分 的 和 节点， 而 在 同一 下 点 上 义 有 若干 
BA “GE” WAR OFS EO, PRU NAG ees IP 地 址 加 收发 口 逻辑 编号 的 
结合 。 在 Unix 域 中 ， 此 种 可 寻 址 实体 是 一 个 文件 名 ， 所 以 器 成 了 与 文件 名 的 结合 。 用 户 程 序 
界面 为 : 
int bind(int sockfd , struct sockaddr *my_addr, socklen t addrlen); 
这 里 的 sockfd HII socket( ) 所 返回 的 打开 文件 号 。 在 bind 到 某 个 地 址 或 文件 名 之 前 ， 虽 然 捅 口 
已 经 建立 但 却 无 从 寻访 。 如 果 说 socket( ) 好 像 是 安装 了 一 个 电话 机 的 话 ， 那 么 bind( ) 就 好 像 为 
它 指定 了 一 个 电话 号 码 。 
€ SYS SOCKETPAIR: 创建 … 对 已 经 互相 连接 的 无 名 插口 ,概念 上 类 似 于 pipe( )。 用 广 程 序 界面 
为 : 
int socketpair (int domain, int type, int protocal ， int sv[2}); 
前 面 三 个 参数 与 socket( ) 相 同 ， 数 组 sv[ ] 则 用 来 返回 创建 后 的 -对 打开 文件 号 。 
€ SYS SHUTDOWN: 部 分 或 完全 关闭 一 个 揪 H， 用 户 程 序 界面 为 : 
int shutdown (int s, int how); 
参数 s 为 插口 的 打开 文件 号 ， 参 数 how 为 0 表示 不 再 允许 接收 ，1 表示 不 壬 允许 发 送 ，2 则 表 
示 接 收 和 发 送 都 不 再 允许 。 由 于 插口 体现 为 特殊 的 打开 文件 ， 所 以 也 可 以 用 close( ) 来 关闭 。 


7.1.2 ”插口 间 连 接 的 建立 


“有 连接 ”模式 通信 和 的 双方 是 不 对 称 的 ， 可 以 说 大 生 就 是 clienVserver 的 关系 。 而 连接 的 建立 则 必 
须 经 过 一 定 的 步 又 ; 
€ SYS_LISTEN: 作为 server 的 一 方 首先 要 通过 listen( In| AR “FES”. RAE ST SISTI A 
被 内 核 视 为 server 一 侧 的 插口 并 允许 已 接受 来 目 client MIDER ARK. A EFAN: 
int listen(int s, int backlog); 
参数 s 即 为 插口 的 打开 文件 号 。 当 连接 请 求 到 来 , 而 时 得 不 到 接受 对, 就 暂时 进入 个 队列 ， 
在 那里 等 待 server 方 的 接受 。 这 里 的 参数 backlog MALE f Xx SRAFIN RAKE. 
€ SYS_CONNECT: 在 “有 连接 ”模式 中 ，client 一 方 要 通过 conect ) 向 已 经 挂 了 号 的 server 
方 插口 请 求 连 接 。 用 户 程序 界面 为 ; 
int connect (int sockfd, const struct sockaddr *serv addr, socklen t addrlen) ， 
参数 sockfd 为 client “ 侧 插口 的 打开 文件 号 ，serv_addr WFR F8] — P 3€ server 方 捅 口 地 址 的 数 
据 结 构 。 当 然 ， 这 个 地 址 必须 已 经 由 server 方 通过 bind( ) 指 定 给 server HRIH., BHAR 
域 中 的 地 址 可 能 不 是 固定 长 度 的 ， 所 以 还 此 有 个 参数 addrlen 来 指明 其 长 度 。 


$857 4. SET socket 的 进程 问 通信 

对 connect( ) 的 调用 一 般 要 到 server 方 接 受 了 连接 或 者 出 错时 才 返 回 。 

€ SYS_ACCEPT: server 方 通过 accept( ) 接 受 或 等 待 接受 到 米 的 (或 已 经 在 队列 中 的 ) 第 -个 连 
接 请 求 。 用 户 程 序 举 血 为 ; 

int accept(int s, struct sockaddr *addr , socklen_t *addrlen): 

参数 s 为 一 个 已 经 挂 了 号 的 server 方 插口 (打开 文件 号 )， 参 数 addr 与 addrlen 则 用 来 返回 连接 
请 求 的 米 源 ， 也 就 是 client 方 插口 的 地 址 。 对 accept( ) 调 用 要 到 有 连接 请 求 到 来 而 建立 起 连接 ， 
或 者 发 生 了 出 错时 才 返 回 。 
特别 要 说 明 的 是 ， 这 个 阔 数 返 辐 “个 新 的 打开 文件 号 。 这 个 新 的 打开 文件 号 就 代表 者 已 经 建立 
起 连接 的 server 方 插口 。 而 原来 的 插 凯 s， 则 保持 原样 个 变 ， 又 可 以 用 来 接受 新 的 (其 他 的 ) 
连接 请 求 。 这 个 插口 就 好 像 是 下 蛋 的 鸡 ， 等 接受 -个 连接 请 求 就 生 下 A E, WRECZ 
建立 起 连接 的 插口 。 在 典型 的 应 用 中 ，server 进程 在 通过 accept( ) 接 受 了 -个 连接 请 求 ， 从 而 
与 一 个 client 进程 建立 起 -- 个 连接 以 后 ， 就 会 通过 fork( ) 创 建 出 ”个 了 进程 。 然 后 ， 子 进程 将 
作为 “种 籽 ” 的 server 方 插口 关闭 ， 而 使 用 新 的 插口 与 client 进程 道 信 并 为 之 提供 服务 。 而 父 
进程 则 把 新 的 插口 关闭 ， 并 且 再 一 次 调用 accept( )， 通 过 “种 籽 ” 揪 口 来 接受 新 的 连接 请 求 。 
这 就 是 典型 的 client/server 运行 模式 。 


7.1.3 “有 连接 ”模式 的 报 文 发 送 与 接收 


“有 连接 ”模式 的 揪 口 一 定 要 在 client 和 server 双方 建立 起 连接 以 后 才能 用 于 道 信 。 由 十 播 口 在 用 
户 界面 上 表现 为 已 打开 文件 ， 并 且 “ 有 连接 ”模式 的 通信 既是 可 靠 的 又 保持 原 有 的 次 序 ， 所 以 可 以 把 
传递 的 信息 看 作 有 序 的 字 节 流 ， 从 而 可 以 用 普通 的 read( ) 和 write( ASIA, R/S BB CIE CORO 
来 接收 和 发 送信 息 。 除 此 之 外 ， 也 可 以 用 专门 为 插口 而 设 的 二 对 库 函 数 之 一 来 接收 和 发 送 ， 即 
recv( Ysend( ).. recvfrom( send. to( ) 以 及 recvmsg( Vsendmsg( )。 不 过 ， 这 些 库 函 数 主要 用 丁 “ 无 连接 ” 
模式 ， 所 以 我 们 将 它们 与 “ 雹 连接 ”模式 的 发 送 与 接收 放 在 一 起 介绍 。 这 里 述 要 指出 ， 无 论 是 “有 连 
接 ” 还 是 “无 连接 ”模式 ， 插 山 都 是 双向 的 ， 并 且 就 发 送 和 接收 而 言 双方 是 对 称 的 。 


7.1.4 “无 连接 ”模式 的 报 文 发 送 与 接收 


顾 名 恩 义 ,“ 无 连接 ”模式 的 插口 不 需要 事先 建立 连接 , 插口 一 经 创建 马 | 就 可 以 发 送 或 接收 报 文 。 
^ 方面 ， 由 二 “无 连接 ”模式 的 通信 弃 不 是 可 靠 的 ， 也 不 一 定 保 持原 有 的 次 序 ， 所 以 不 宜 用 read ) 
和 write ) 像 对 待 一 个 有 序 字 节 流 滥 样 使 用 “无 连接 ” 模 工 的 插口 ， 而 要 用 专门 设置 的 汉 组 库 冰 数 来 进 
行 。 与 文件 操作 read( )、write( ) 相 比 ， 这 三 组 函数 的 特点 是 它们 都 保留 报 文 的 边界 ， 有 关 这 一 扩 读 者 
让 后 面 看 了 源 代码 以 后 就 清楚 了 。 

e SYS SENDTO: 如 前 所 述 ,“ 无 连接 ”模式 的 择 口 经 建立 (并且 bind 到 个 插口 地 址 ) 以 

后 就 可 以 进行 通信 ， 而 无 需 先 建立 连接 。 当 然 ， 此 时 对 所 发 送 的 每 个 报 文 都 要 提供 对 方 的 地 址 
(在 “无 连接 ”模式 中 ， 和 个 报 文 都 是 独立 的 )， 所 以 ，sendto( ) 的 用 户 程 序 界面 为 : 
int sendto( int s, const void * msg, size t len, int flags, 


const struct sockaddr *to,  socklen t tolen); 


Linux PES COTÉ AA BT C PD 
显然 , PRR ED “AER” BAIR RATT RIN, 参数 to 指 疝 对 方 的 地 址 即 sockaddr 
数据 结构 ， 而 tolen 则 为 地 址 的 长 度 。 虽 然 这 个 函数 的 界面 是 专 为 “无 连接 ”模式 设计 的 ， 但 
是 也 可 以 用 这 个 嚼 数 在 “有 和 连接 ”模式 的 揪 口 上 发 送 报 文 , 不 过 此 时 应 将 参数 to 设置 成 NULL， 
而 将 tolen 设置 成 0。 
HARKS, HE SYS_SENDTO 是 由 sys_sendto( ) 实 现 的 。 
SYS SEND: 从 用 户 程序 界面 米 看 ，send( ) 似 乎 土 要 是 为 “有 连接 ”模式 设计 的 ; 
int send(int s, const void *msg, size t len, int flags): 
与 sendto( ) 的 界面 相 比 ， 这 里 没有 提供 对 方 的 地 址 。 在 “有 连接 ”模式 中 ， 连 接 忆 经 事先 建立 
好 ， 当 然 不 需要 每 次 都 提供 对 方 地 址 了 。 但 定 ， 即 使 在 “无 连接 ”模式 中 ， 当 准备 接连 向 同一 
目标 发 送 很 多 个 报 文 时 ， 每 次 都 要 提供 对 方 的 地 址 。 这 样 做 既 条 烦 又 降低 了 效率 【每 次 都 要 从 
用 户 空 间 把 地 址 复制 到 内 核 中 )。 是 不 是 可 以 价 化 一 下 呢 ? 例如 ， 是 否 可 以 先 “ 预 设 ” 个 双 
方 地 址 ， 随 后 就 采用 send( ) 来 发 送 ， 而 不 必 每 次 都 重复 地 提供 相同 的 地 址 。 事 实 正 是 这 样 ， 对 
于 “ 励 连接 ”模式 的 插 日 ， 可 以 用 conet ) 先 设置 一 个 对 方 地 址 ， 然 后 册 用 send ) 发 送 报 文 ， 
而 实际 上 每 次 都 使 用 预先 设置 好 的 对 方 地 址 。 但 是 昌 注 意 ， 在 “无 连接 ”模式 中 使 用 connect( ) 
与 在 “有 连接 ”模式 中 使 用 connect( ) 有 本 质 的 区 别 。 在 “无 连接 ”模式 中 ，connect( ) 的 作用 只 
是 让 内 核 为 “本 地 ” 插 山 记 下 预 设 的 对 方 地 址 ，J 说 并 不 涉及 与 对 方 之 间 控 制 报 文 的 往返 。 以 后 
则 在 发 送 的 每 个 报 文 头 部 附 上 这 个 地 三 ， 以 指明 报 文 的 日 的 地 。 至 于 在 “有 连接 ”模式 中 的 
connect( )， 则 实际 向 对 方 发 送 一 个 请 求 连接 的 控制 报 文 〈 指 在 网 络 环境 下 )， 并 等 待 对 方 的 响 
应 。 连 接 建立 了 以 后 ， 随 同 得 个 报 文 发 送 的 可 以 内 是 一 个 连接 号 ， 而 不 一 定 要 包括 对 方 地 址 。 
所 以 ， 虽 然 在 形式 上 两 种 模式 前 可 以 使 用 connect( )， 并 且 有 时 把 经 过 connect( ) 预 设 好 对 方 地 
址 的 “无 连接 ”插口 也 说 成 趾 处 于 “已 连接 状态 ”， 但 实质 上 是 完全 不 同 的 。 读 者 在 资料 中 磁 
到 此 类 词句 时 要 注意 根据 上 下 文 加 以 区 分 。 
在 内 核 中 ，SYS_SEND 是 由 sys send( ) 实 现 的 ， 而 sys send( ) 又 是 由 sys_sendto( ) 实 现 的 ， 代码 
风 net/socket.c: 


[5ys. socketcall( ) > sys send( )] 


1207 
1208 
1209 
1210 


asmlinkage long sys send(int fd, void * buff, size t len, unsigned flags) 


{ 
return sys sendto(fd, buff, len, flags, NULL, 0); 


} 
€ SYS_SENDMSG: FÆ sendmsg( ) 是 前 两 个 晒 数 的 推广 与 加 强 ， 这 是 三 个 函数 中 最 复杂 的 ， 
其 用 户 程 序 崔 面 为 : 
int sendmsg(int s , const struct msghdr *msg , int flags); 


参数 msg 指向 一 个 msghdr 数据 结构 ， 定 义 于 socket.h: 


33 
34 
35 
36 
37 


struct msghdr { 


void *msg name; /* Socket name */ 

int msg namelen; /* Length of name */ 

struct iovec  -*msg iov; /* Data blocks */ 

.— kernel sizo t msg iovlen; /* Number of blocks */ 


38 


39 
40 
41 
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void *msg control; /*Per protocol magic(eg BSD file 

descriptor passing)*/ 
| kernel size t msg controllen; /* Length of cmsg list */ 
unsigned msg flags; 


每 个 msghdr 数据 结构 都 代表 着 一 个 报 文 。 在 msghdr 结构 中 ，msg_name 为 对 方 的 插口 地 
址 《或 者 也 可 以 称 作 捅 口 名 )。 而 msg iov 则 指 问 一 个 结构 数组 ， 该 数组 中 的 每 一 个 元 索 都 是 
一 块 数据 ， 这 样 一 个 报 文 的 内 容 就 可 以 分 散 仁 太 干 个 互 不 连续 的 绥 冲 区 中 ， 而 在 逻 强 上 却 连 化 
一 起 ， 在 网 络 环境 下 这 起 很 有 8 好 处 的 。 还 有 ，msg_control 和 msg_controllen 的 作用 是 传递 控制 
信息 ， 在 Unix 域 中 用 来 在 进程 闻 传 递 访问 权限 ， 还 可 以 用 来 传递 “打开 文件 描述 体 ”。 这 些 以 
后 再 介绍 。 

由 于 每 个 报 多 都 有 个 对 方 地址 ， 这 显然 适合 十 “万 连接 ”模式 。 但 是 ， 像 sendto( ) 一 样 ， 
它 也 可 以 用 于 “有 连接 ”模式 中 ， 不 过 上 娄 将 msg. name wW NULL, msg namelen 设 成 0。 

SYS_RECV、SYS_RECVFROM、SYS_RECVMSG: 这 一 个 操作 都 是 用 来 从 某 个 插口 s 接收 
报 文 的 ， 并 且 分 别 与 前 列 用 来 发 送 报 文 的 操作 相对 应 ， 所 以 我 们 把 它们 合并 在 一 起 叙述 。 完 成 
这 些 操 作 的 库 函 数 为 : 

int recv(int s, void *buf , size t len, int flags); 

int recvfrom(int s, void *buf , size t len, int flags, 
struct sockaddr  *from , socklen t *fromlen); 

int recvmsg (int s, struct msghdr -*msg , int flags); 

与 发 送 报 文 的 库 函 数 类 似 ，recy( ) 通 常用 于 “有 连接 ”模式 的 插口 ， 或 者 虽然 赴 “ 无 连接 ” 
模式 的 插口 ， 但 却 已 经 用 connect( ) fü PM Jj Hb. PRA recvfrom ) 的 接收 是 全 方位 的 ， 参 数 
from 并 不 是 用 来 指定 接收 来 自 哪 “个 远方 插 所 的 报 文 , 而 是 用 来 在 接收 和 到 一 个 报 义 时 指明 报 艾 
的 来 源 。 所 以 from 所 指 辣 的 数据 结构 只 是 一 个 用 于 返回 报 义 来源 的 缓冲 |x.， 而 fromlen 所 指 则 
为 该 缓冲 区 的 大 小 。 在 内 核 中 ，SYS_RECYVY 由 sys recv( ) 实 现 ，SYS_RECVFROM 则 由 


| 


过 sys recvfrom( ) 实 现 的 ， 代 个 见 net/socket.c: 


[sys_socketcall( ) > sys recv( )] 


1258 
1259 
1260 
1261 


asmlinkage long sys_recv(int fd, void * ubuf, size_t size, unsigned flags) 
{ 

return sys_recvfrom(fd, ubuf, size, flags, NULL, NULL); 
} 


也 就 是 说 ， 如 果 把 recvtrom( ) 的 参数 from 和 fromlen 设置 成 NULL, Wik recv( )— FFT « 
函数 recvmsg( ) 则 与 sendmsg( ) 相 对 应 ， 也 具有 将 一 个 报 文 的 内 容 分 散在 若 十 个 缓冲 区 内 的 上塘 
能 ， 并 且 具 人 有 接收 控制 倍 和 县 的 功能 。 


Jd 
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控制 以 及 辅助 性 的 操作 


SYS GETSOCKNAME: 库 函 数 getsockname( ) 用 来 获取 为 一 个 手 口 s 指定 (bind) 的 地 址 或 名 
F: 
int getsockname(int s, struct sockaddr *name , socklen_t -*namelen); 

SYS_GETPEERNAME: “HEI” BUXBHRLEI, TEE client 方 还 是 server 方 ， 一 旦 建立 起 连 
接 以 后 就 有 了 AAT”. ERR getpeername( HARIRI s 的 对 方 播 口 的 地 址 (或 名 字 ): 

int getpeername(int s, struct sockaddr * name , socklen t * namelen) ; 
SYS SETSOCKOPT. SYS GETSOCKOPT: PEE setsockopt( ) 和 getsockopt( ) 用 米 设置 和 读 
取 :个 插口 s 所 实行 规程 中 的 一 些 可 选项 ， 由 于 可 选项 都 是 在 网 络 坏 境 下 运用 的 ， 而 本 书 只 讲 
述 Unix 域 的 播 H， 所 以 我 们 在 这 里 并 不 关心 这 两 个 图 数 。 


有 了 上 面 这 些 预备 知识 以 后 ,我 们 就 可 以 从 下 一 节 开 始 介绍 socket 通信 机 制 华 Unix 域 中 的 实现 了 。 
为 了 往 后 测 读 的 方 使 ， 此 处 先 给 出 利用 插口 实现 进程 间 通 信和 的 流程 示意 图 (图 7.12。 
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server 进程 client 进程 



















sys_socket sys_socket 

创建 插口 创建 插口 

sys_bind 

确定 地 址 
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sys_connect 
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Sys sendmsg 


sys recvmsg 


图 7.1 插口 通信 流程 示意 图 


函数 sys socket( ) 一 一 创建 插口 


操作 SYS_SOCKET 是 山 sys_socket( ) 实 现 的 ， 其 代码 在 net/socket.c 中 : 
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[sys_socketcall( ) > sys, socket( )] 


889 asmlinkage long sys socket(int family, int type, int protocol) 


890 { 
891 int retval; 
892 struct socket *sock; 
893 
894 retval = sock create(family, type, protocol, &sock) ; 
895 if (retval < 0) 
896 goto out; 
897 
898 retval = sock map fd(sock); 
899 if (retval < 0) 
900 goto out releaso; 
901 
902 out: 
903 /* [t may be already another descriptor 8) Not kernel problem. */ 
904 return retval; 
905 
906 out release: 

-. 907 sock release (sock); 

- 908 return retval; 
909  ] 


前 面 说 过 ， 播 门 对 十 用 户 程序 而 言 就 是 特殊 的 已 打开 文件 。 内 核 中 为 插口 定义 了 一 种 特殊 的 文件 
类 型 ， 形 成 .种 特殊 的 文件 系统 sockfs， 定 义 十 net/socket.c FP: 


301 static struct vfsmount *sock_mnt; 
302 static DECLARE FSTYPE(sock fs type, “sockfs”, sockfs_read_super, 
303 FS NOMOUNT;FS SINGLE); 


在 系统 初始 化 时 ， 要 通过 kern_mount( ) 安 装 这 个 文件 系统 。 安 装 时 有 个 作为 连接 件 的 vfsmount 数 
据 结构 ， 这 个 结构 的 地 址 就 保存 在 一 个 全 局 的 指针 sock mnt 中 。 所 谓 创 建 -个 插口 ， 就 是 在 sockfs X 
件 系统 中 创建 一 个 特殊 文件 ， 或 者 说 一 个 节点 ， 并 建立 起 为 实 坝 插 口 功能 所 需 的 一 整套 数据 结构 。 所 
以 首先 是 建立 一 个 socket 数据 结构 ， 然 后 将 其 “映射 ”到 一 个 己 打 开 文 件 中 。 冰 数 sock_create( ) 的 代 
但 在 同一 文件 〈socketc) 小。 这 段 代 码 由 于 比较 长 ， 我 们 分 段 米 看 : 


[sys_socketcall( ) > sys socket( ) > sock create( )] 


814 int sock create(int family, int type, int protocol, struct socket X**res) 
815 d 

816 int i; 

817 struct socket *sock; 

818 

819 /* 

820 * Check protocol is in range 
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821 */ 

822 if (family<0 || family>=NPROTO) 

823 return -EAFNOSUPPORT ; 

824 

825 /* Compatibility. 

826 

827 This uglymoron is moved from INET layer to here to avoid 

828 deadlock in module load. 

829 */ 

830 if (family == PF INET && type == SOCK PACKET) { 

831 static int warned; 

832 if (Iwarned) { 

833 warned = 1; 

834 Drintk(KERN INFO “%s uses obsolete (PF_INET, SOCK_PACKET) Wn", 
current-^comm); 

835 } 

836 family = PF PACKET; 

837 } 

838 

839 #if defined (CONFIG KMOD) && defined (CONFTG_NET) 

840 / Attempt to load a protocol module if the find failed. 

841 * 

842 * 12/09/1996 Marcin: But! this makes REALLY only sense, if the user 

843 * requested real, full-featured networking support upon configuration. 

844 * Otherwise module support will break! 

845 */ 

846 if (net families[familyl--NULL) 

847 { 

848 char module name[30]; 

849 sprintf (module name, "net pf-*d", family); 

850 request module (module name); 

851 } 

852 #endif 

853 

854 net family read lock( ); 

855 if (net families[family] == NULL) 1 

856 i = -EAFNOSUPPORT ; 

857 goto out; 

858 } 

859 


这 一 段 代 码 的 开始 部 分 是 检查 和 处 理 参 数 的 范围 。 山 于 我 们 在 这 里 只 关心 Unix W, 280 family 

为 AF UNIX 叶 的 情景 ， 所 以 这 段 代码 对 我 们 不 起 什么 作用 。 接 下 来 是 “ 段 条 件 编译 ， 如 采 系 统 配 首 

了 可 动态 安装 内 核 模 块 的 功能 ， 并 且 网 络 驱动 程序 是 动态 安装 的 ， 就 要 检查 一 下 由 参数 family 所 指定 

网 域 的 驱动 程序 是 否 已 经 安装 ， 尚 未 安装 的 话 就 要 调用 request_module( ) 把 它 安 装 起 来 。 至 于 Unix tk 

插口 的 驱动 程序 ， 那 是 内 核 所 固有 的 ， 并 止 动态 安装 的 模块 。 此 外 ， 就 像 人 等 种 文件 系统 部 有 个 

file operations 数据 结构 ， 样 ， 每 种 网 域 ， 包 括 Unix 域 ， 也 都 有 个 net. proto. family 数据 结构 。 任 系统 
da 
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初始 化 或 安装 模块 时 ， 要 将 指向 相应 网 域 的 这 个 数据 结构 的 指针 翰 入 一 个 数组 net_families[ J, SN 
就 说 明 系 统 尚 不 支持 给 定 的 网 域 。Unix fH net proto family 数据 结构 为 unix_family_ops， 定 义 于 


neVunix/af_unix.c H: 


1844 struct net proto family unix family ops = | 


1845 PF UNIX, 
1846 unix create 
1847 es 


就 是 说 ,结构 中 只 有 ”个 代表 着 Unix 域 的 常数 PF. UNIX M 7 eG BSE ET unix, create; ifj PF UNIX 
决定 了 指向 这 个 数据 结构 的 指针 在 net_families[ ] 中 的 位 置 。 
由 到 sys socket( ) 中 继续 往 下 看 〈socketcy》: 


[sys_socketcall( ) > sys socket( ) > sock create( )] 


862 /* 

863 * Allocate the socket and allow the family to set things up. if 
864 * the protocol is 0, the family is instructed to select an appropriate 
865 * default. 

866 */ 

867 

868 if (! (sock = sock alloc( ))) 

869 { 

870 printk(KERN WARNING "socket: no more socketsNn ) ; 

871 i = -ENFTIE; /* Not exactly a match, but its the 
872 closest posix thing */ 

873 goto out; 

874 } 

875 

876 sock->type - type; 

877 

878 if ((i = net families[family]->create (sock, protocol)) < 0) 
879 { 

880 sock_release (sock) ; 

881 goto oul; 

882 } 

883 

884 *res = sock; 

885 

886 out: 

887 net family read unlock( ); 

888 return i; 

889 ] 


插口 是 由 socket 数据 结构 代表 的 ， 这 种 数据 结构 定义 于 include/linux/net.h ! IT 
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65 struct Sochcetu 

66 { 

67 socket_state state; 

68 

69 unsigned long flags; 

70 struct proto ops *ops; 

11 struct inode *inode; 

12 struct fasync struct *fasync list; /* Asynchronous wake up list */ 
73 struct file *file: /* File back pointer for gc */ 
14 struct sock *sk; 

15 wait queue head L wail; 

T6 

1t short type; 

78 unsigned char passcred; 

79 Of; 


结构 中 各 个 成 分 的 用 途 随 着 代码 的 阅读 会 变 得 清楚 起 来 , 这 里 暂且 只 要 知道 有 这 些 成 分 就 吕 以 了 。 
不 过 我 们 建议 读者 在 搞 清 了 这 些 成 分 的 用 途 以 后 再 叫 过 头 来 月 己 加 上 注释 。 
函数 sock_alloc( )4) Bg - 个 socket 数据 结构 并 进行 ， 些 初始 化 ， 其 代码 在 net/socket.c P: 


[sys_socketcall( ) > sys socket( ) > sock create( ) > sock_alloc( )] 


427 Jx 

428 * sock alloc - allocate a socket 
429 * 

430 * Allocate a new inode and socket object. The two are bound together 
431 * and initialised. The socket is then returned. If we are out of inodes 
432 * NULL is returned. 

433 */ 

434 

435 struct socket *sock alloc (void) 

436 { 

437 struct inode * inode; 

438 struct socket * sock; 

439 

440 inode = get empty inode( ); 

441 if (linode) 

442 return NULL; 

443 

444 inode-^i sb = sock mnt-^mnt, sb; 

445 sock = socki lookup(inode); 

446 

447 inode->i_mode = S IFSOCK|S IRWXUGO; 
448 inode->i_ sock = 1; 

449 inode->i_uid = current->fsuid; 

450 inode->i_gid = current->fsgid; 

451 
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452 sock->inode = inode; 

453 init waitqueue_head (&sock->wait) ; 
454 sock: >fasyne_list = NULL; 

455 sock-»state = SS UNCONNECTED; 

456 sock-»flags = 0; 

457 sock-^ops = NULL; 

458 sock->sk = NULL; 

459 sock->file = NULL; 

460 

461 sockets in use(smp processor_id( )]. counter++; 
462 return sock; 

463  ] 


可 见 ,取得 :个 inode 结构 是 取得 一 个 socket 结构 的 必要 条 件 。 人 不仅 如 此 ,socket 结构 其 实 内 是 inode 
结构 中 的 一 部 分 ! 读者 在 “文件 系统 ”一 章 中 看 到 过 有 关 inode 数据 结构 的 说 时 ， 在 inode 结构 中 有 一 
个 关键 性 的 成 分 u。 这 是 一 个 union， 要 按 具体 的 文件 类 型 和 格式 而 解释 成 不 同 的 数据 结构 。 日 前 Linux 
支持 20 多 种 不 同 的 文件 系统 ， 因 此 对 这 个 union 有 20 多 种 不 同 的 解释 ， 而 socket 结构 正 是 其 中 之 一 。 
代码 中 445 行 的 socki_lookup( ) 只 是 将 inode 结构 中 的 这 个 union 解释 为 socket 结构 而 已 , JG nevsocket.c 
中 的 代码 : 


[sys_socketcall( ) > sys_socket( ) > sock_alloc( ) > socki_lookup( )] 


377 extern | inline _ struct socket *socki_lookup (struct inode *inode) 
378 | 

379 return &inode >u. socket, i; 

380  ] 


同时 ， 在 inode 结构 中 还 此 将 i_mode 里 的 S IFSOCK 标志 位 设 成 1， 并 将 i sock 也 设 成 1， 以 不 
这 个 inode 结构 所 代表 的 并 不 是 磁 恰 文件 ， 而 是 一 个 插口 。 

分 配 了 一 个 socket 结构 ， 并 且 设 置 好 插口 的 类 型 以 后 ， 就 通过 山 unix_family_ops 提供 的 函数 指针 
create 调用 Unix 域 的 揪 口 创建 程序 unix_create( )， 其 代码 在 af_unix.c P: 


[sys socketcall( ) > sys. socket( ) > sock create( ) > unix create( )] 


498 static int unix create (struct socket *sock, int protocol) 
499 { 

500 if (protocol && protocol != PF_UNIX) 
501 return - EPROTONOSUPPORT ; 

502 

503 sock->state = SS UNCONNECTED; 

504 

505 switch (sock type) 1 

506 case SOCK STREAM: 

507 sock—>ops = &unix stream ops; 
508 break; 

509 /* 
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510 
511 
512 
513 
514 
515 
516 
517 
518 
519 
520 
521 
522 
523 


} 


*/ 
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* Believe it or not BSD has AF UNIX, SOCK RAW though 
* nothing uses it. 


case SOCK RAW: 
sock-^type-SOCK DGRAM; 
case SOCK DGRAM: 
sock—>ops = &unix dgram ops; 


break; 
default: 


return -ESOCKTNOSUPPORT ， 


| 


return unix createl(sock) 2 0: 


—ENOMEM ; 


参数 protocol 是 从 用 户 空 间 一 直 传 下 来 的 ， 若 为 0 则 默认 为 Unix 域 。 插 口 的 初始 状态 设 星 成 


SS_UNCONNECTED,“ 有 连接 ”模式 ， 邵 类 型 为 SOCK_STREAM 的 插口 必须 在 建 Y 了 连接 以 后 才能 
合用。 插口 的 类 型 决定 了 通信 的 模式 ， 对 十 给 定 的 网 域 这 通常 也 决定 了 采用 的 规程 。 对 插口 的 各 种 操 
作 央 规程 的 不 同 而 异 ， 所 以 各 种 规程 都 有 其 自己 的 一 套 插 口 操作 ， 通 过 一 个 proto_ops 数据 结构 提供 有 
美的 函数 指针 。 根 据 插 品类 型 的 人 不同， 这 里 把 socket 结构 中 的 指针 分 别 设置 成 unix stream ops 或 
unix dgram ops. XX XS £415 5E XT net/unix/af_unix.c P: 


1804 
1805 
1806 
1807 
1808 
1809 
1810 
1811 
1812 
1813 
1814 
1815 
1816 
1817 
1818 
1819 
1820 
1821 
1822 
1823 
1824 
1825 
1826 
1827 
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struct proto ops unix stream ops - 


We 


family: 


release: 
bind: 
connect: 
socketpair: 
accept: 
getname: 
poll: 
ioctl: 
listen: 
shutdown: 
setsockopt: 
getsockopt: 
sendmsg: 
recvmsg: 
mmap : 


PF_UNIX, 


unix release, 

unix bind, 

unix stream connect, 
unix socketpair, 
unix accept, 

unix gelname, 

unix poll, 

unix ioctl, 

unix listen, 

unix shutdown, 

sock no setsockopt, 
sock no getsockopt, 
unix stream sendmsg, 
unix stream recvmsg, 
sock no mmap, 


struct proto ops unix dgram ops - { 


family: 


release: 


PF_UNIX, 


unix release, 


{ 
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1828 bind: unix bind, 

1829 connect: unix dgram connect, 
1830 socketpair: unix socketpair, 
1831 accept: sock no accept, 
1832 getname: unix getname, 

1833 poll: datagram poll, 

1834 ioctl: unix_ioctl, 

1835 listen: sock_no_listen, 
1836 shutdown: | unix shutdown, 

1837 setsockopt: sock no setsockopt, 
1838 getsockopt: sock no getsockopt, 
1839 sendmsg: unix dgram sendmsg, 
1840 recvmsg: unix dgram recvmsg, 
1841 mmap: sock no mmap, 

1842 }; 


对 比 一 下 上 列 这 两 个 数据 结构 ， 就 可 以 看 出 在 无 连接 模式 折 口 中 对 应 于 accept 的 函数 为 
sock, no. accept( )， 这 个 组 数 只 是 返回 一 个 出 错 代 码 一 EOPNOTSUPP， 表 示 不 支持 所 要 求 的 扎 作 。 同 样 
Hh, 也 不 支持 listen. 同时, 两 种 模式 的 Unix 域 捕 口 部 不 支持 setsockopt 和 getsockopt, 也 不 支持 mmap. 
不 过 ， 如 前 所 述 ， 对 于 用 户 程序 而 刘 ， 插 口 就 是 已 打开 文件 ， 所 以 还 可 能 通过 常规 的 六 件 把 作 界面 支 
持 一 些 比较 通用 的 操作 ， 有 些 操作 如 unix poll( ). unix ioctl( ) 等 ， 并 不 是 通过 sys_socketcall( ) 来 调用 
的 ， 而 要 通过 普通 的 文件 操作 界 血 来 调用 ， 

此 外 ，，: 般 网 域 的 插口 类 型 除 SOCK_STREAM 和 SOCK_DGRAM 外 还 有 一 种 SOCK RAW, th 
是 无 连接 模式 的 , 存 Unix 域 中 则 等 同 二 SOCK_DGRAM, 所 以 514 行 把 插口 类 型 改 成 SOCK_DGRAM, 
注意 在 514 行 下 面 没 有 break iJ. 

最 后 ，unix_create( ) 调 用 unix_create1( )， 进 一 步 完成 创建 插口 的 任务 (f unix.e?: 


[sys_socketcall( ) > sys_socket( ) > sock_create( ) > unix create( ) > unix createl( )] 


463 static struct sock * unix_createl (struct socket *sock) 
464 { 

465 struct sock *sk; 

466 

467 if (atomic read(&unix nr socks) >= 2*files stat.max files) 
468 return NULL; 

469 

470 MOD INC USE COUNT; 

471 - sk = sk alloc(PF UNIX, GFP KERNEL, 1); 

472 if (!sk) ( 

413 MOD DEC USE COUNT; 

414 return NULL; 

415 ) 

476 

477 atomic inc(&unix nr socks); 

478 

479 sock_init_data (sock, sk) ; 
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480 

481 sk->write space = unix write space; 

482 

483 sk->max_ack_backlog = sysctl unix max dgram qlen; 

484 sk-^destruct = unix sock destructor; 

485 sk-^protinfo.af unix. dentry-NULL; 

486 sk-»protinfo.af unix.mnt-NULL; 

481 sk-»protinfo.af unix. lock = RW LOCK UNLOCKED; 

488 atomic set(&sk-^protinfo. af unix. inflight, 0); 

489 init MUTEX (&sk-^protinfo.af unix. readsem) ; /* single task reading lock */ 
490 init waitqueue head(&sk-^protinfo. af unix. peer wait); 
491 sk-^protinfo. af unix. list-NULL; 

492 unix insert socket(&unix sockets unbound, sk); 

493 

494 return sk; 

495  ] 


每 个 插口 都 有 个 socket 数据 结构 ， 同 时 又 有 个 sock 数据 结构 ， 后 者 可 以 说 是 对 前 者 的 种 扩充 ， 
两 者 间 是 一 对 一 的 对 应 关系 。 在 socket 结构 中 有 个 指针 sk 指向 其 对 应 的 sock 结构 ， 而 在 sock 结构 中 
则 有 个 指针 socket 指向 其 对 应 的 socket 结构 ， 所 以 :者 可 以 说 是 同 ， 个 东西 的 两 个 侧面 。 其 中 sock 结 
构 是 一 种 相当 大 的 数据 结构 ， 其 定义 有 180 多 行 ， 我 们 不 在 这 里 列 出 了 ， 读 者 可 以 自己 在 
include/linux/net/sock.h 中 找到 它 的 定义 。 在 这 里 ， 我 们 只 是 随 着 代码 的 进展 对 有 关 的 成 分 作 一 些 介绍 。 
另 一 方面 ，sock 结构 是 内 核 中 常常 要 动态 分 配 使 用 的 ， 所 以 内 核 中 为 此 专 设 了 … 个 队列 ， 通 过 slab 机 
制 来 管理 这 种 数据 结构 的 缓冲 区 。 分 配 了 sock 结构 以 后 就 是 它 的 初始 化 ，sock_int_data( ) 的 代码 也 在 
sock.c 中 ， 


[sys_socketcall( ) > sys socket( ) > sock_create( ) > unix, create( ) 
> unix createl( ) > sock, init. data( )] 


1117 void sock init data(struct socket *sock, struct sock *sk) 


1118 | 

1119 skb queue head init (&sk-^receive queue); 
1120 skb queue head init(&sk-^write queue); 
1121 skb queue head init (&sk->error_queue) ; 
1122 

1123 init_timer (&sk->timer) ; 

1124 

1125 sk->allocation = GFP KERNEL; 

1126 sk- rcvbuf =  sysctl rmem default; 
1127 sk->sndbuf = sysctl wmem default; 
1128 sk->state =  TCP CLOSE; 

1129 sk->zapped = 1; 

1130 sk-»socket = sock; 

1131 

1132 if (sock) 

1133 { 
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1134 sk->type =  sock->type; 

1135 sk->sleep = &sock~?wait; 

1136 sock-?sk - sk; 

1137 } else 

1138 sk->sleep = NULL 

1139 

1140 sk-^dst lock = RW LOCK UNLOCKED; 
1141 sk-»callback lock = RW LOCK UNLOCKED; 
1142 

1143 sk-»state change = sock def wakeup; 

1144 sk-^data, ready - sock def readable; 
1145 sk-»write space = sock def write space; 
1146 sk-^error report = sock def error report; 
1147 sk->destruct = sock def destruct; 
1148 

1149 sk->peercred. pid = Q0; 

1150 sk~>peercred. uid = >=]; 

1151 sk—>peercred. gid s ly 

1152 sk->rcvlowat = s 

1153 sk->revtimeo = MAX SCHEDULE TIMEOUT; 
1154 sk-^sndtimeo = MAX SCHEDULE TIMEOUT; 
1155 

1156 atomic set(&sk-^refcnt, 1); 

1157 ] 


在 sock 结构 中 有 儿 个 双向 链 队 列 , 其 中 最 重要 的 就 是 receive queue FU write, queue; 出 error queue 
则 仅 在 网 络 坏 境 下 才 会 用 到 。 这 几 个 队列 并 不 采用 通用 的 队列 头 结构 list, head, 而 专门 定义 了 一 种 
sk buff head 数据 结构 ， 定 义 于 include/linux/skbuff.h FP: 


51 struct sk buff head { 


52 /* These two members must be first. */ 
53 struct sk buff * next; 

54 struct sk buff * prev; 

55 

56 __u32 glen; 

57 spinlock t lock; 

BB ps 


排 存 队列 中 的 都 是 sk. buff 数据 结构 。 在 网 络 坏 境 下 ， 我 们 通常 所 说 的 “ 报 文 ” 是 ISO 的 7 ES 
中 第 4 屋 ， 即 “传输 层 ” 的 概念 ， 出 具体 在 网 络 中 发 送 和 接收 的 则 是 第 3 JE. BED "MERTZ 的 数据 单 
位 ， 称 为 packet (“ 报 文 分 组 ”， 或 “ 包 ”)。 根 据 长 度 ， 一 个 报 文 可 以 就 是 一 个 包 ， 也 可 以 在 发 送 跨 被 
分 解 成 若 十 个 包 ， 而 在 接收 端子 以 组 装 复原 。 报 文 与 包 之 间 的 这 种 区 分 主要 足 为 克服 网 络 中 物 型 介质 
的 不 可 靠 性 ， 以 及 从 性 能 方面 考虑 而 来 的 。 在 Unix 域 的 条 件 下 ， 由 于 并 不 涉及 网 络 介质 ， 所 以 一 个 报 
文 就 是 一 个 包 。 每 一 个 包 都 更 上 由 用 一 个 sk_buff 数据 结构 ， 所 以 receive_queue 队列 中 的 每 个 sk_buff 数 
据 结 构 就 载运 着 一 个 到 达 的 包 ，I 而 write queue 队列 中 则 为 待 发 送 的 包 。 这 也 是 一 种 比较 复杂 的 数据 结 
构 ， 我 们 将 结合 报 文 的 发 送 和 接收 加 以 介绍 。 
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此 外 ， 在 sock 结构 中 还 有 一 个 特殊 的 sk_buff 结构 队列 ， 那 是 专 为 网 络 环境 而 设 曾 的 ， 我 们 在 这 
里 并 不 关心 。 在 网 络 环境 下 ， 常 常 归 为 包 的 发 送 设置 一 些 定时 器 。 例 如 ， 在 “有 连接 ”模式 中 如 果 发 
送 了 -一 个 包 以 后 在 一 定时 间 里 得 不 到 对 方 的 确认 就 要 生发 。 所 以 在 sock 结构 中 还 有 - :个 定时 器 队列 
timer。 所 有 这 些 队列 的 头 部 部 要 加 以 初始 化 ( 见 1125~1130 行 )。 

FRA sock_init_data( ) 中 其 余 的 代码 比较 直截了当 ， 我 们 就 不 多 解释 了 。 只 说 明 一 下 ，sock 结构 中 
的 rcvbuf 和 sndbuf 分 别 为 接收 和 发 送 缓冲 区 的 大 小 ， 默 认 值 均 为 64K 字 节 。 还 有 ，sock 结构 中 的 
state change. data ready 等 都 是 函数 指针 ， 分 别 设置 成 指向 sock def wakeup( ). sock def readable( ) 

回 到 unix_createl( ) 的 代码 中 ， 继 续 完成 sock 结构 的 初始 化 。 注 意 代码 中 的 sock 是 一 个 socket 结 
构 指 针 ，sk 才 是 sock 结构 指针 。 

这 里 的 sk->write_space 也 是 一 个 函数 指针 , 设置 成 指向 函数 unix write space( )。 在 sock 数据 结构 
中 还 有 一 个 非常 重要 的 成 分 protinfo， 这 是 个 union， 要 根据 具体 网 域 而 赋予 不 同 的 解释 。 对 Unix 域 来 
说 ， 这 个 union 被 当 作 个 unix opt 数据 结构 ， 名 为 af_unix， 这 种 数据 结构 是 在 include/net/sock.h 路 
定义 的 : 


106 /* The AF UNIX specific socket options */ 
107 struct unix opt (Í 


108 struct unix address *addr; 
109 struct dentry * dentry; 
110 struct vfsmount * mnt; 

lil struct semaphore readsem; 
112 struct sock * other; 
113 struct sock ** list; 

114 struct sock * gc tree; 
115 atomic t inflight; 
116 rwlock_t lock; 

117 wait queue head i peer wait; 
D F; 


XRH) addr 指 上 各 一 个 unix, address 结构 。 将 -个 插 站 bind 到 某 一 个 地 址 时 ， 这 个 地 于 就 保存 在 这 
里 ， 其 类 型 定义 在 include/net/af_unix.h F: 


20 struct unix address 


21 { 

22 atomic t refcnt; 

23 int len; 

24 unsigned hash; 

25 struct sockaddr un name[0]; 
26. 3 


具体 的 地 址 在 sockaddr un 结构 中 ， 这 种 数据 结构 的 定义 在 include/linux/un.h F: 


4 &define UNIX PATH MAX 108 
5 
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struct sockaddr_un { 
sa family t sun family; /* AF UNIX */ 
char sun path[UNTX PATH MAX];  /* pathname */ 


‘OAD 


ny 


可 见 , Unix 域 中 的 插口 地 址 即 为 一 个 文件 (节点 ) 的 路 径 和 名。 注意 在 unix. address 结构 中 的 namel ] 
数组 大 小 为 0， 所 以 unix address 结构 的 大 小 并 不 包括 sockaddr un 结构 的 空间 ， 在 分 配 空间 时 要 额外 
加 上 。 那 么 ， 为 什么 要 这 样 呢 ? 这 是 因为 插口 的 地 址 可 长 可 短 〔( 最 长 为 108 SE), WREAK 
长 度 分 配 空 间 就 太 浪 费 了 。 

除 addr LASF, af unix 结构 中 的 readsem 是 个 内 核 信 和 号 量 ， 代 码 中 的 init MUTEX( ) 将 这 个 内 核 信 
号 量 的 值 初始 化 成 1 ， 用 来 保证 某 些 操作 对 于 资源 的 独占 性 。 

对 sock 结构 初始 化 的 最 后 一 步 是 unix_insert_socket( )， 这 是 个 inline 函数 ， 其 定义 为 ; 


[sys_socketcall( ) > sys socket( ) > sock create( ) > unix create( ) > unix createl( ) > unix insert socket ( )| 


241 {static __inline__ void unix insert socket (unix socket **list, unix socket *sk) 
242 { 

243 write lock(&unix table, lock); 

244 |J unix insert socket(list, sk); 

245 write unlock(&unix table lock); 

246 ] 


PAX — unix insert socket( ) 则 将 一 个 sock 数据 结构 搬入 到 一 个 unix socket 结构 队列 路 ， 并 将 该 
sock 结构 的 使 用 计数 设置 成 1。 内 核 中 设置 了 一 个 杂谈 表 unix socket_table[ ]， 其 大 小 为 
UNIX_HASK_SIZE+1， 即 237。 定 义 见 af_unix.c: 


118 unix socket *unix socket table[UNIX HASH SIZE:1]: 


这 个 数组 中 的 每 一 项 玫 是 一 个 unix socket 结构 的 单 链 队列 。 在 include/net/af_unix.h 中 有 对 
unix socket 的 定义 : 


6 typedef struct sock unix socket; 


所 以 unix socket 结构 就 是 sock 结构 。 每 个 sock £pi EGE LL SEIS ASR EE ACC e EB 
的 某 个 队列 。 这 样 ， 当 接收 到 一 个 无 连接 模式 的 报 文 时 ， 或 接收 到 “个 连接 请 求 时 ， 就 可 以 根据 其 日 
标 地 址 迅速 地 找到 其 目标 揪 记 。 介 是， 在 插口 创建 之 初 沿 无 插 丫 地 址 ， 所 以 暂时 把 它 链 入 到 采 赎 表 中 
的 最 后 一 个 队列 ， 即 unix socket tablqUNIX HASH SIZE]. H1 T Hh At IY) Ze 72 E Oh 4 fo. 
UNIX_HASH_SIZE 一 1] 范 围 内 ， 所 以 不 会 引起 混淆 。 代 但 由 的 unix_sockets_unbound 在 af_unix.c 中 定 
MA: 


120 Hdefine unix sockets unbound (unix socket table[UNTX HASH SIZE]) 


TR. CASPAR Se PTS ECL. SERI REFAH bind ) 的 时 候 ， 就 会 根据 地 址 的 杂凑 
但 把 插口 的 sock 结构 转移 到 杂 凌 表 中 的 另 一 个 队列 由 去 。 
21. 
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前 面 讲 过 ，socket 结构 与 sock 结构 实际 上 是 同一 事物 的 屿 个 侧面 。 不 妨 说 ，socket 结构 是 而 向 进 
程 和 系统 调用 界面 的 侧面 ， 而 sock 结构 则 是 面向 底层 驱动 程序 的 侧面 。 可 是 ， 为 什么 不 干脆 把 两 个 数 
据 结 构 合 并 成 一 个 昵 ? 如 前 所 述 ,socket 结构 是 inode 结构 中 的 一 部 分 , 即 把 inode 结构 内 部 的 … 个 union 
FAYE socket 结构 。 由 十 插口 操作 的 特殊 性 ， 这 个 数据 结构 中 和 需要 有 大 量 的 结构 成 分 。 可 起 ， 如 果 把 这 
些 结构 成 分 全 都 放 在 socket 结构 中 ， 则 inode 结构 中 的 这 个 union 就 会 变 得 很 大 ， 从 而 inode 结构 也 会 
变 得 很 大 ， 而 对 十 其 他 文件 系统 这 个 union 是 不 需要 那么 庞大 的 。 所 以 ， 孝 样 会 使 inode 结构 变 得 过 分 
庞大 而 造成 浪费 ， 系 统 中 使 用 inode 结构 的 数量 当然 要 远 远 超过 使 用 socket 结构 的 数量 。 解 决 的 办 法 
就 是 把 插口 所 需 的 这 些 结构 成 分 拆 成 两 部 分 ， 把 与 文件 系统 关系 比较 密切 的 那 一 部 分 放 在 socket 结构 
中 ， 田 一 部 分 ， 即 与 通信 关系 比较 密切 的 那 一 部 分 ， 则 单独 成 为 一 个 数据 结构 ， 那 就 是 sock 结构 。 由 
于 这 两 部 分 数据 在 逻辑 上 本 来 就 是 一 体 的 ， 所 以 要 通过 指针 互相 指 问 对 方 ， 形 成 一 对 一 的 关系 。 

完成 了 socket 结构 和 sock 结构 的 分 配 以 及 初始 化 ，sock_create( ) 就 完成 了 任务 ， 我 们 回 到 
sys_socket( ) 中 继续 往 下 看 。 下 ab ut sock_map_fd( )， 代 码 见 net/socket.c: 





[sys_socketcall( ) > sys socket( ) > sock_map_fd( )] 


312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
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{ 


Obtains the first available file descriptor and sets it up for use. 


This functions creates file structure and maps it to fd space 

of current process. On success it returns file descriptor 

and file struct implicitly stored in sock->file. 

Note that another thread may close file descriptor before we return 
from this function. We use the fact that now we do not refer 

to socket after mapping. If one day we will need it, this 

function will inincrement ref. count on file by 1. 


In any case returned fd MAY BE not valid! 

This race condition is inavoidable 

with shared fd spaces, we cannot solve is inside kernel, 
but we take care of internal coherence yet. 


Wo X 0X * * 0X 0X 0X 0X 0X 0X X H X 


* 
wW 


tatic int sock_map_fd (struct socket *sock) 


int fd; 
struct qstr this; 
char namc[32]; 


/* 
* Find a file descriptor suitabie for return to the user. 


*/ 


fd = get unused fd( ); 
if (fd >= 0) ( 
struct file *file = get empty filp( ); 


72 EET socket 的 进程 间 通 信 


342 

343 if (!file) { 

344 put_unused_fd (fd) ; 

345 fd = -ENFILE; 

346 goto out; 

347 } 

348 

349 sprintf (name, "[91u]^, sock—>inode->i_ino) ; 
350 this. name = name; 

351 this. len = strlen (name) ; 

352 this. hash = sock->inode->i_ino; 

353 

354 file->f dentry = d_alloc(sock_mnt->mnt sb-^s root, &this) ; 
355 if (!file->f dentry) { 

356 put_filp (file); 

357 put unused fd(fd); 

358 fd = -ENOMFM; 

359 goto out; 

360 ) 

36] file-^f dentry-^d op = &sockfs dentry operations; 
362 d add(file-^f dentry, sock-^inode); 

363 file-^f vfsmnt - mntget(sock mnt); 

364 

365 sock-^file = file; 

366 file->f op = sock-^inode-^i fop = &socket file ops: 
367 file->f_mode = 3; 

368 file->f_flags = O_RDWR; 

369 file->f_pos = 0; 

370 fd install(fd, file); 

371 } 

372 

373 out: 

374 return fd; 

375} 


前 面 讲 过 ， 从 进程 的 角度 来 看 ， 一 个 捕 口 就 是 “个 特殊 的 已 打开 文件 ， 这 是 在 没 计 “插口 ”这 种 
机 制 时 就 设计 好 了 的 。 现 在 socket 结构 〈 以 及 sock 结构 ) 已 经 分 配 好 并 进行 了 初始 化 ， 接 痢 时 做 的 就 
是 将 socket 结构 ， 实 际 上 是 其 宿主 inode 结构 ， 与 文件 系统 的 一 套 机 制 挂 上 钧 了 。 首 先 时 分 极 一 个 空 
闲 的 打开 文件 号 以 太 file 结构 ， 还 要 在 文件 系统 的 月 录 树 中 分 配 一 个 dentry 数据 结构 ， 使 其 指向 已 经 
分 配 的 inode 数据 结构 ， 并 且 使 file 结构 中 的 指针 f_dentry 指向 该 dentry 结构 。 最 后 ， 还 会 根据 所 建 订 
的 dentry 结构 和 inode 结构 在 磁盘 上 建立 起 相应 的 月 录 项 和 索引 节点 ， 不 过 那 是 后 话 。 从 代码 中 还 可 
看 出 ， 代 表 着 捅 口 的 节点 名 号 是 其 罕 引 节点 号 349 行 )。 

代码 中 354 行 的 d_alloc( ) 为 插口 分 配 一 个 有 目录 项 ， 并 将 其 挂 在 特殊 义 件 系统 sockfs 的 根 日 录 下 。 
然后 ,362 行 的 d_add() 将 插口 的 dentry 444945 inode 结构 互相 挂 1-49. 1x 8 JE dentry 结构 中 的 指针 d. op 
设置 成 指向 sockfs_dentry_operations， 这 个 数据 结构 通过 函数 指针 提供 了 与 文件 路 径 有 关 的 操作 ， 定 义 
T net/socket.c 中 
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308 static struct dentry operations sockfs dentry operations = | 
309 d delete: | sockfs delete dentry, 
310 }; 


避风， 对 丁 插口 ， 除 vfs 居 上 的 操作 以 外 惟一 与 此 有 关 的 操作 就 是 删除 月 录 项 。 

最 后 , 将 file 结构 中 的 f_op 指针 和 inode 结构 小 的 i_fop 指针 都 设置 成 指向 用 于 插口 的 文件 操作 跳 
转 结构 socket_fs_ops， 并 根据 分 配 得 到 的 打开 文件 号 fd 将 该 file 结构 的 地 址 填 入 本 进程 的 打开 文件 结 
构 数 组 中 相应 的 位 置 上 。 数 据 结构 socket file ops 的 定义 为 socket.c): 


114 static struct file_operations socket_file ops = { 


115 llseek: sock lseek, 
116 read: sock read, 
117 write: sock write, 
118 poll: Sock poll, 
119 ioctl: sock_ioctl, 
120 mmap: sock mmap, 
121 open: sock no_open, /* special open code to disallow open via /proc */ 
122 release: sock close, 
123 async: sock fasync, 
124 rcadv: sock readv, 
125 writev: Sock writev 
126 Ts 


这 样 ， 当 通过 sys socketcall( ) 对 “个 插口 进行 某 种 操作 时 〈 如 recv( ) 等 )， 就 会 通过 前 述 socket 结 

构 中 的 unix, stream. ops 或 unix_dgram_ops 结构 跳 转 旬 具体 的 驱动 程序 中 ; 出 通 过 普通 的 文件 操作 界面 
《如 read( ) 等 ) 对 插口 操作 时 ， 则 道 过 这 个 socket_fs_ops 结构 决定 跳 转 。 

完成 了 sock mapfd( ) 以 后 ， 整 个 创建 插口 的 过 程 就 完成 了 。 总 结 以 上 所 述 ， 我 们 可 以 粗略 地 画 出 
内 核 中 与 插口 有 关 的 主要 数据 结构 之 间 的 联系 图 (图 7.2)。 

图 小 有 商人 个 入 口 。 一 个 是 进程 的 task. struct 数据 结构 , 根据 打开 文件 号 可 以 找到 相应 的 inode 结构 ; 
太一 个 是 从 杂凑 表 unix socket table 开始 找到 相应 的 sock 结构 。 当 接收 到 一 个 packet 时 ， 在 packet 的 
头 部 必然 直接 或 癌 接地 包含 着 关 十 目 标 择 门 地 址 的 信息 。 根 据 这 个 地 址 ， 加 以 杂凑 运算 后 便 可 以 确定 
unix socket table 表 中 的 ”个 队 你 ， 然 后 扫描 该 队列 加 以 比 对 ， 就 可 以 找到 属于 该 日 标 地 址 的 sock 数 
据 结构 ， 而 找到 了 sock 结构 也 就 找到 了 socket 结构 以 及 inode 结构 。 

最 后 还 要 说 明 ， 除 SYS SOCKET 以 后 ， 还 有 个 SYS SOCKETPAIR 操作 也 用 来 创建 插口 。 
SYS SOCKETPAIR 所 建立 的 趾 一 对 《〈 而 不 是 一 个 ) 互相 已经 连接 好 的 插口 ， 概 念 上 与 “管道 ”相似 。 
使 用 下 也 很 相似 《例如 都 要 与 fork ) 结 合 使 用 )。 事 实 上， 在 有 些 Unix 版 本 中 甚至 用 “插口 对 ”来 实 
现 “ 管 道 "。 由 于 “插口 对 ”只 能 在 同一 台 计 算 机 上 使 用 ， 就 没有 必要 再 根据 报 文 的 日 标 地 址 通过 杂凑 
SRI RH Ed DET sock 结构 ， 而 可 以 把 这 一 步 “ 短 路 ”过 去 了 。 为 了 这 个 间 的 ， 在 sock 数据 结构 中 设 
曹 了 一 个 指针 pair。 在 创建 一 个 “插口 对 ”时 就 让 两 个 sock 数据 结构 都 通过 这 个 指针 互相 指向 对 方 。 
SYS SOCKETPAIR 操作 是 由 sys_socketpair( ) 实 现 的 ， 有 兴趣 的 读者 可 以 白 行 阅读 其 代码 。 
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unix socket table 





队列 中 其 他 sock 


prey 


sk_buff 结构 
sk buff 结构 





socket 


task struct 


file 
unix address 


files struct 


unix opt 





. unix.stream. ops, 或 
fd array[ | socket file ops unix dgram ops 


图 7.2 与 socket 相关 的 主要 数据 结构 之 间 的 联系 图 


7.3 4k sys bind( ) 一 一 指定 插口 地 址 


操作 SYS_BIND 为 已 创建 的 质 岂 指定 一 个 地 址 ， 赴 由 sys bind( ) 实 岗 的 《sockctc ): 


[sys_socketcall( ) > sys_bind( )] 


977 /* 

978 * Bind a name to a socket. Nothing much to do here since it's 
979 * the protocol’s responsibility to handle the local address. 
980 * 

981 * We move the socket address to kernel space before we call 
982 * the protocol layer (having also checked the address is ok). 
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983 */ 

984 

985 asmlinkage long sys_bind(int fd, struct sockaddr *umyaddr, int addrlen) 
986 d 

987 struct socket *sock; 

988 char address[MAX SOCK ADDR]; 

989 int err; 

990 

991 if ((sock = sockfd lookup (fd, &err)) !=NULL) 

992 { 

993 if ((err=move_addr_to_kernel (umyaddr, addrlen, address) ) >=0) 

994 err = sock->ops—>bind(sock, (struct sockaddr *) address, addrlen) ; 
995 sockfd_put (sock) ; 

996 } 

997 return err; 

908  ] 


Tr c SEHE dd WT CE SAIC) socket 数据 结构 ，sockfd_lookup( ;的 代码 很 简单 ， 读 者 可 
以 结合 前 面 的 图 7.2 自行 阅读 Csocket.c). 


[sys_socketcall( ) > sys bind( ) > sockfd lookup( )] 


382 fk 

383 * sockfd lookup - Go from a file number to its socket slot 

384 * @fd: file handle 

385 * (err: pointer to an error code return 

386 * 

387 * The file handle passed in is locked and the socket it is bound 

388 * too is returned. If an error occurs the err pointer is overwritten 
389 * with a negative errno code and NULL is returned. The function checks 
390 * for both invalid handles and passing a handle which is not a socket. 
391 * 

392 * On a success the socket object pointer is returned. 

393 */ 

394 

395 struct socket *sockfd_lookup (int fd, int *err) 

396 { 

397 struct file *file; 

398 struct inode *inode; 

399 struct socket *sock; 

400 

401 if (!(file = fget(fd))) 

402 { 

403 *err = -EBADF; 

404 return NULL; 

405 } 

406 
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407 inode = file->f dentry->d_jinode; 

408 if (iinode->i sock || !(sock = socki_lookup (inode) )) 
409 ( 

410 *err = -ENOTSOCK; 

411 fput (file) ; 

412 return NULL; 

413 } 

414 

415 if (sock->file != file) { 

416 printk (KERN ERR “socki_lookup: socket file changed! \n”) ; 
417 sock-»file = file; 

418 } 

419 return sock; 

420  ] 


找到 了 插口 的 socket 结构 以 后 ， 就 可 以 根据 该 结构 中 的 指针 ops 找到 相应 的 驱动 程序 跳 转 结 构 
unix. stream. ops 或 unix_dgram_ops。 两 个 跳 转 结构 中 的 指针 bind 都 指向 unix bind( )， 所 以 Unix 域 的 
bind 操作 是 由 unix_bind( ) 完 成 的 。 | 

不 过 ， 先 要 把 参数 umyaddr 所 指 的 数据 结构 从 用 户 空间 复制 过 来 ， 这 个 数据 结构 含有 为 插口 指定 
的 地 址 。 前 面 在 sys_socketcall( ) 复 制 过 来 的 只 是 指向 这 个 数据 结构 的 指针 ， 而 不 是 数据 结构 本 号 。 这 
里 《988 行 ) 为 插口 的 地 址 准备 下 了 -个 缓冲 区 address[ ]， 其 大 小 为 MAX_SOCK_ADDR, 定义 为 128。 
具体 的 复制 是 由 move_addr_to_kernel( ) 完 成 的 ， 复 制 的 长 度 则 取决 于 参数 addrlen。 

参数 umyaddr 是 个 sockaddr 结构 指针 ,我们 还 没有 看 过 这 种 数据 续 构 的 定义 ,现在 需要 看 一 人 了 ， 
这 是 在 文件 include/linux/socket.h 中 给 出 的 : 


r 
11 typedef unsigned short sa family t; 
12 
13 —/* 
14 * 1003. lg requires sa family t and that sa data is char. 
15 */ 


17 struct sockaddr { 

18 sa family t sa family; /* address family, AF xxx */ 

19 char sa data[14]; /* 14 bytes of protocol address */ 
20-. .J4 


HAR sockaddr 数据 结构 有 确定 的 大 小 , 其 中 的 sa. data ] 是 一 个 14 字 节 的 数组 , 但 是 捕 口 地 址 的 实 
际 长 度 却 并 不 是 固定 的 ， 所 以 由 另 - -个 参数 addrlen 说 明 其 包括 sa. family 在 内 的 长 度 。 读者 也 许 感到 
奇怪 ; sa data ] 中 不 是 - :个 字符 串 吗 ? 只 要 用 strlen( ) 取 字符 串 长 度 就 行 了 , 何必 这 人 么 麻烦 ? 其 实 不 然 ， 
就 Unix 域 来 说 ， 这 通常 是 个 字符 串 ， 可 是 在 其 他 网 域 中 就 未 必 了 ， 例 如 在 internet 网 域 中 就 可 以 是 4 
个 字 节 的 TP 地 址 加 上 传输 层 的 端口 号 ， 其 中 有 些 字 节 完 全 可 能 是 0〈 后 面 读 者 会 看 到 ， 即使 在 Unix 3 
中 也 还 有 所 谓 “ 抽 和 象 地 址 ” 是 以 “\0” 开 头 的 )。 吃 一 方面 ，Unix 域 的 插口 地 址 实际 上 是 个 文件 路 径 
名 ，14 个 字 节 显然 是 不 够 的 。 所 以 ， 用 于 插口 地 址 的 数据 结构 大 小 因 网 域 而 并 ， 可 是 结构 中 的 第 个 
成 分 总 是 sa_family。 这 么 一 考虑 ， 读 者 就 可 以 明白 当初 设计 者 (从 BSD Unix 时 代 开 始 ) 的 用 意 了 。 
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在 极端 的 情况 下 ， 地 址 的 长 度 addrlen 可 以 只 包含 了 数据 类 型 sa_family 的 长 度 ， 也 就 是 一 个 短 整 
数 的 长 度 ， 而 sa_dataf ] 中 则 连 个 字 节 也 没有 。 设计 者 赋予 这 样 的 地 址 -个 特殊 的 含义 ， 就 是 让 系统 
给 自动 分 配 (生成 )- :个 地 址 。 对 于 Unix 域 插口 地 址 ， 实际 使 用 的 是 sockaddr un 结构 ， 与 sockaddr 
结构 的 区 别 在 于 它 的 字符 数组 大 小 为 _ UNIX_PATH_MAX， 实 际 上 是 108。 注 意 address[ ] 的 大 小 为 
MAX-SOCK_ADDR,， 即 128， 已 经 考虑 到 了 对 所 有 网 域 插口 地 址 的 需要 。 由 于 在 address[ ] 中 有 足够 大 
的 空间 ， 将 sockaddr un 结 爸 复制 过 来 不 会 造成 问题 。 常 数 MAX_SOCK_ADDR 的 定义 和 
move_addr_to_kernel( ) 的 代码 都 在 net/socket.c "P; 


194 #define MAX SOCK ADDR 128 /* 108 for Unix domain - 


195 16 for IP, 16 for IPX, 

196 24 for IPv6, 

197 about 80 for AX. 25 

198 must be at least one bigger than 

199 the AF UNIX size (see net/unix/af unix.c 

200 :unix mkname( )). 

201 */ 

202 

203 / 

204 * move_addr_to_kernel - copy a socket address into kernel space 
205 * @uaddr: Address in user space 

206 * @kaddr: Address in kernel space 

207 * @ulen: Length in user space 

208 * 

209 * The address is copied into kernel space. If the provided address is 
210 * too long an error code of -EINVAL is returned. If the copy gives 
211 * invalid addresses -FFAULT is returned. On a success 0 is returned. 
212 */ 

213 


214 int move addr to kernel(void *uaddr, int ulen, void *kaddr) 
215 { 


216 if (ulen<0! julen>MAX SOCK ADDR) 

217 return -EINVAL; 

218 if (ulen==0) 

219 return 0: 

220 if(copy from user (kaddr, uaddr, ulen)) 
22] return -EFAULT; 

222 return 0; 

223 } 


HERE copy_from_user(), EIEE ARMET. 
TB BIS, Unix BRAY bind 操作 是 由 unix_bind( ) 完 成 的 ， 其 代码 在 net/unix/af. unix.c F: 


[sys_socketcall( ) > sys_bind( ) > unix bind( )] 


636 static int unix bind(struct socket *sock, struct sockaddr *uaddr, int addr len) 
637 { 
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struct sock *sk = sock->sk; 

struct sockaddr un *sunaddr=(struct sockaddr un *)uaddr; 
struct dentry * dentry - NULL; 

struct nameidata nd; 

int err; 

unsigned hash; 

struct unix address *addr; 

unix socket **list; 


err = -EINVAL; 
if (sunaddr->sun family !- AF UNIX) 
goto out; 


if (addr len--sizeof(short)) | 
err = unix autobind(sock); 
goto out; 


} 


err = unix mkname(sunaddr, addr len, &hash) ; 
if (err < 0) 

goto out; 
addr_len = err; 


down (&sk->prot info. af_unix. readsem) ; 
err = -EINVAL; 


if (sk-»protinfo.af unix. addr) 
goto out up; 


err - -ENOMEM; 
addr = kmalloc(sizeof (taddr) +addr len, GFP KERNEL); 
if (laddr) 


goto out up; 


memcpy (addr->name, sunaddr, addr len); 
addr->len = addr len; 

addr->hash = hash sk-^type; 

atomic set(&addr-^refcnt, 1); 


if (sunaddr-^sun path[0]) { 
err = 0; 
/* 
* Get the parent directory, calculate the hash for last 
* component. 
*/ 
if (path init (sunaddr->sun path, LOOKUP PARENT, &nd)) 
err = path walk(sunaddr-^sun path, &nd) ; 
if (err) 
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686 goto out mknod parent; 

687 /* 

688 * Yucky last component or no last component at all? 
689 * (foo/., foo/.., /////) 

690 */ 

691 err = -EEXIST; 

692 if (nd.last type !- LAST NORM) 

693 goto out mknod; 

694 /* 

695 * Lock the directory. 

696 */ 

697 down(&nd. dentry-^d inode-^i sem); 

698 /* 

699 * Do the final lookup. 

700 */ 

701 dentry = lookup hash(&nd. last, nd.dentry): 

702 err = PTR ERR(dentry) : 

703 if (1S ERR(dentry)) 

104 goto out mknod unlock; 

705 err = —ENOENT; 

106 /* 

707 * Special case ~ lookup gave negative, but... we had foo/bar/ 
708 * From the vfs mknod( ) POV we just have a negative dentry 一 
709 * all is fine. Let's be bastards - you had / on the end, you’ ve 
710 * been asking for (non-existent) directory. -ENOENT for you. 
711 */ 

712 if (nd. last. name[nd. last. ien] && !dentry-^d inode) 
713 goto out mknod dput; 

714 /* 

715 * All right, let's create it. 

716 x 

717 err = vfs_mknod (nd. dentry->d_inode, dentry, 

718 S_IFSOCK| sock->inode->i mode, 0): 

719 if (err) 

720 goto out mknod dput; 

721 up (&nd. dentry~->d_inode~>i_sem) ， 

722 dput (nd. dentry) ; 

723 nd. dentry = dentry; 

124 

725 addr->hash = UNIX HASH SIZE; 

726 } 

727 

728 write lock(&unix table lock); 

129 

730 if (!sunaddr-^sun path[0]) ( 

731 err = -EADDRINUSE; 

732 if ( unix find socket byname (sunaddr, addr len, 

733 sk->type, hash)) { 
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734 unix release_addr (addr) ; 

735 goto out unlock; 

136 } 

737 

738 list = &unix socket table[addr-^hash]; 
139 ) else { 

740 list = &unix socket_table[dentry->d_inode~>i_ino & (UNIX HASH SIZE-1) ]; 
141 sk-»protinfo.af unix.dentry = nd. dentry; 
742 sk->protinfo. af_unix. mnt = nd. mnt; 
743 } 

144 

745 err = 0; 

746 __unix_remove_socket (sk) ; 

74T sk—->protinfo. af unix. addr = addr; 

748 __unix insert socket(list, sk); 

149 

150 out unlock: 

751 write unlock(&unix table lock); 

152 out_up: 

753 up (&sk—>protinfo. af unix. readsem) ; 

154 out: 

155 return err; 

756 

757 out mknod dput: 

758 dput (dentry) ; 

759 out mknod unlock: 

760 up (&nd. dentry->d_inode->i_sem) ; 

761 out mknod: 

762 path release (&nd) ; 

763 out mknod parent: 

164 if (err---EEXIST) 

165 err--EADDRINUSE; 

166 unix release_addr (addr) ; 

767 goto out_up; 

768 } 


对 于 Unix 域 的 插口 地 址 ， 代 码 中 先 把 它 的 sockaddr 结构 当成 一 个 sockaddr un 结构 〈638 47), 后 
者 的 字符 数组 大 小 为 UNIX_PATH_MAX， 即 108。 此 时 实际 的 插口 地 址 已 经 在 sys_bind( ) 中 的 局 部 量 
address| ] 中 ， 其 大 小 为 128， 所 以 不 会 造成 问题 。 

如 前 所 述 ， 如 果 参 数 addrlen 指示 插口 地 址 的 大 小 为 2， 即 仅 为 数据 类 型 sa_family_t 的 大 小 ， 则 表 
示 要 求 由 系统 给 自动 分 配 〈 生 成 ) ”个 地 址 。 这 就 是 652 行 中 对 unix_autobind( ) 的 调用 。 这 个 函数 的 
代码 也 在 afunixe 中 ， 建 议 读 省 在 按 正 常 路 线 读 完 unix bind( ) 的 代码 以 后 自己 再 看 一 下 
unix autobind( )。 

虽然 move. addr. to. kernel ) 对 插口 地 址 的 长 度 作 了 检查 ， 对 其 内 容 却 并 未 触及 ， 所 以 要 进一步 通 
过 unix mkname( ) 检 查 和 处 理 。 顺 便 提 一 句 ， 变 量 名 “sunaddr” 中 的 s 表示 socket, un 表示 unix， 而 
与 “Sun” 电 脑 公 司 毫 尤 关系 。unix_mkname( ) 的 代码 在 文件 af_unix.c 中 : 
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170 — /* 

171 * Check unix socket name: 

172 * - should be not zero length. 

173 * - if started by not zero, should be NULL terminated (FS object) 
174 * - if started by zero, it is abstract name. 

175 */ 

176 

177 static int unix mkname (struct sockaddr un * sunaddr, int len, unsigned *hashp) 
M8 { 

179 if (len <= sizeof(short) || len > sizeof (*sunaddr) ) 

180 return -EINVAL; 

181 if (!sunaddr || sunaddr-^sun family !- AF UNIX) 

182 return -EINVAL; 

183 if (sunaddr-^sun path(0]) 

184 { 

185 /* 

186 * This may look like an off by one error but it is 

187 * a bit more subtle. 108 is the longest valid AF UNIX 
188 * path for a binding. sun path[108] doesnt as such 

189 * exist. However in kernel space we are guaranteed that 
190 * it is a valid memory location in our kernel 

191 * address buffer. 

192 x/ 

193 if (len > sizeof (*sunaddr)) 

194 len = sizeof (*sunaddr) : 

195 ((char *) sunaddr) [len]=0: 

196 len = strlen(sunaddr-^sun path) +1+sizeof (short): 

197 return len; 

198 } 

199 

200 *hashp = unix hash fold(csum_partial ((char*) sunaddr, len, 0)); 
201 return len; 

200  ] 


Unix 域 的 插口 地 址 有 两 种 类 型 。 .种 是 常规 的 路 径 名 字符 串 ， 不 过 不 一 定 以 0 结尾 ， 在 长 度 中 也 
个 包括 结尾 的 0 在 内 ， 另 一 种 是 以 “0” 开 头 的 ， 称 为 抽象 地 址 。 对 于 前 者 ，unix_mkname( ) 将 其 转换 
成 一 个 以 0 结尾 的 字符 串 ， 并 对 其 长 度 作 出 相应 调整 〈195 一 196 行 )。 后 者 类 似 于 网 络 地 址 ， 
unix mkname( ) 为 之 计算 出 - -个 杂凑 值 ， 并 通过 参数 hashp à& [u[ix ^ Zeiss f& 

对 于 这 两 种 不 同类 型 地 址 的 使 用 和 处 理 是 不 同 的 。 对 常规 的 字符 串 地 址 ， unix_bind( ) 根 据 其 路 径 
名 为 之 在 文件 系统 中 建立 一 个 “文件 ”节点 。 像 其 他 特殊 文件 - 样 ， 这 个 文件 实际 上 只 是 一 个 索引 节 
点 ， 而 并 没有 用 于 数据 的 记录 块 ， 但 是 这 样 - 米 这 个 插口 在 文件 系统 的 昌 录 树 中 就 成 为 可 见 的 了 。 以 
后 器 可 以 通过 pathwalk( ) 根 据 该 插口 的 地 址 (路径 名 ) 在 文件 系统 中 找到 其 jnode， 并 用 索引 节点 号 代 
谷地 址 的 杂凑 值 来 决定 将 插口 的 sock 数据 结构 挂 入 杂 凌 表 中 的 哪个 队列 。 对 于 “抽象 地 址 ” 则 并 不 建 
立 这 样 的 文件 ， 所 以 使 用 “抽象 地 址 ”的 Unix 域 插口 就 像 用 于 其 他 网 域 的 插口 - 样 ， 从 文件 系统 的 角 
度 来 讲 是 不 可 见 的 ， 并 且 使 用 地 址 的 杂凑 值 来 确定 挂 入 到 哪个 队列 中 ， 
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回 到 unix. bind( ) 的 代码 中 , 当 插 口 地 址 为 常规 的 文件 路 径 名 时 (677~726 47), 首先 通过 path_init( ) 
和 path wak ) 根 据 给 定 的 路 径 名 找到 其 父 节 点 ， 即 所 在 的 目录 节点 ， 并 确认 日 标 节 点 尚 不 存在 。 学 习 
过 “文件 系统 ”- 章 的 读者 对 这 些 代码 不 应 该 有 困难 。 

然后 ， 通 过 vfs_mknod( ) 在 文件 系统 的 目录 树 中 建立 :个 文件 节点 《〈 见 717 行 )。 这 个 函数 的 代码 
我 们 在 “文件 系统 ”- 章 中 并 未 触及 ， 所 以 在 这 里 看 F, ETT fs/nameic P: 


[sys_socketcall( ) > sys_bind( ) > unix bind( ) > vfs_mknod( )] 


1176 int vfs mknod(struct inode *dir, struct dentry *dentry, int mode, dev t dev) 
1177 { 


1178 int error = -EPERM; 

1179 

1180 mode &= "current-^fs-^umask; 

1181 

1182 down (&dir->i_ zombie); 

1183 if ((S ISCHR(mode) || S TSBLK(mode)) && ! capable (CAP_MKNOD) ) 
1184 goto exit lock; 

1185 

1186 error = may create(dir, dentry); 

1187 if (error) 

1188 goto exit_lock; 

1189 

1190 error = -EPERM; 

1191 if (!dir->i_op || !dir—>i_op~>mknod) 
1192 goto exit lock; 

1193 

1194 DQUOT INIT (dir); 

1195 lock kernei( }; 

1196 error = dir->i op-^mknod(dir, dentry, mode, dev); 
1197 unlock kernel( ); 

1198 exit lock: 

1199 up (&dir->i_ zombie); 

1200 if (!error) 

1201 inode dir notify (dir, DN CREATE); 
1202 return error; 

1203 } 


ARE, HEARERS NES EE. PRIEIS EAE ACT ABEL inode_operations 结构 
中 的 函数 指针 提供 的 。 以 Ext2 SCIT RSW BL, ORR IO Oe ST Eb ee Ext2 文件 系统 中 ， 或 
者 说 其 所 在 目录 在 Ext2 文件 系统 中 ， 那 就 会 调用 Ext2 的 mknod 操作 ext2_mknod( )。 读 者 在 “文件 系 
Ao - 章 中 已 经 阅读 过 这 个 函数 的 代码 。 读 者 应 该 还 记得 ， 在 创建 插口 时 已 经 为 之 建立 了 一 个 inode 
数据 结构 ， 而 现在 vfs_mknod( ) 显 然 又 会 根据 插口 的 路 径 名 在 某 … 文 件 系 统 中 创建 一 个 索引 节点 。 创 建 
了 索引 节点 以 后 ， 当 通过 系统 调用 open ) 试 图 打 升 这 个 文件 时 ， 就 会 在 内 存 中 根据 该 索引 节点 的 内 容 
建立 起 一 个 inode 数据 结构 。 那 么 ， 这 样 一 来 插口 岂 不 就 有 了 两 个 inode 结构 ? 两 个 inode 结构 又 各 有 
什么 作用 ? 我 们 知道 ， 在 打开 文件 时 ， 是 由 一 个 函数 init_special_inode( ) 根 据 文 件 的 模式 对 其 inode £i 
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构 进行 初始 化 的 ， 而 这 里 在 调用 vfs mknod( ) 时 把 文件 的 模式 设置 成 S_IFSOCK， 所 以 我 们 看 一 下 在 
init, special, inode( ) 中 对 插口 文件 的 处 理 。 


200 void init_special_inode (struct inode *inode, umode t mode, int rdev) 
201 { 

202 inode->i_mode = mode; 

203 if (S ISCHR(mode)) | 

212 else if (S ISSOCK (mode) ) 

213 inode->i_ fop = &bad sock fops; 

216 ) 


这 里 的 宏 操 作 S ISSOCK( ) 检 查 日 标 节 点 的 模式 是 否 S_IFSOCK， 如 果 是 就 把 inode 结构 中 的 
inode_operations 结构 指针 I fop 设置 成 指 问 bad_sock_fops， 这 个 结构 的 定义 在 fs/devices.c F: 


196 static struct file operations bad sock fops = | 


197 open: sock no open 

198  ); 

191 static int sock no open(struct inode *irrelevant, struct file *dontcare) 
192 | 

193 return -ENXIO; 

194  ] 


显然 ， 这 个 节点 是 不 允许 通过 常规 的 系统 调用 玉 打 并 的 。 为 一 方面 ， 插 品 一 经 创建 就 是 已 打开 文 
件 ， 也 不 沉 要 道 过 系统 调用 open( ) 来 打开 。 那 么 ， 为 什么 要 建立 这 个 文件 呢 ? 这 是 因为 Unix 域 允 许 以 
常规 的 路 径 名 作为 插口 地 址 ， 这 样 的 插口 地 址 便于 记忆 ， 也 便于 通过 常规 的 文件 操作 来 检查 一 个 特定 
的 路 径 名 是 省 已 经 在 使 用 中 。 如 此 文件 系统 中 已 经 存在 共有 相同 路 径 名 的 文件 ， 则 unix_bind( ) 会 失败 
而 返回 出 错 代码 EADDRINUSE。 所 以 通常 在 用 户 程 序 中 要 华 调 用 bind( ) 之 前 先 调 用 unlink( )， 将 可 能 
己 经 存在 的 同名 文件 先 删 除 。 应 该 指 小 ， 插 口 并 不 是 持续 存在 的 ， 其 李 命 绝 不 会 超过 创建 它 的 进程 。 
当 创 建 插口 的 进程 exit( ) 时 ， 它 所 创建 的 插口 也 会 随 着 已 打开 文件 的 关闭 而 消失 。 可 是 ,为 插口 创建 的 
文件 ( 结 点 ) 却 是 持续 存在 的 ; 即使 创建 它 的 进程 已 经 exit( )， 甚 至 机 器 已 经 断 电 ， 这 文件 还 是 存在 于 
磁盘 上 ， 所 以 必须 特地 加 以 删除 。 髓 看 旺 个 inode 结构 间 的 关系 。 我 们 在 前 Piet, SON 
sock 结构 者 挂 在 一 个 杂 凌 表 中 的 某 个 队列 里 。 对 于 采用 文件 路 径 名 为 地 址 的 插口， 杂 凌 值 中 根据 文件 
的 案 引 节点 号 产生 的 ， 所 以 只 要 得 到 了 文件 的 索引 节点 号 ， 就 可 以 找到 插口 的 sock 数据 结构 ， 从 而 找 
到 插口 的 socket 结构 及 其 簿 主 ， 即 创建 插口 时 建立 的 inode 结构 。 

当然 ，Unix 域 的 播 口 也 可 以 不 用 路 径 名 作为 地 址 ， 那 就 是 前 述 的 “抽象 地 址 ” 其 第 一 个 字 节 必须 
是 0。 采用 抽象 地 址 的 插口 在 文件 系统 中 不 存在 插口 文件 。 

如 前 所 述 ， 插 口 的 sock 结构 在 创建 插口 时 暂时 挂 在 unix. socket. table 的 最 后 一 个 队列 中 。 这 个 队 
列 的 下 标 超 出 了 洒 凌 值 的 范 污 ， 所 以 用 杂凑 值 作 下 标 是 不 会 访问 到 这 个 队列 里 来 的 。 现 在 既然 已 经 为 
揪 口 指定 了 地 址 ， 就 要 把 它 的 sock 绪 构 转移 到 相应 的 队列 中 了 。 对 于 常规 的 路 径 名 地 址 ， 由 十 所 创建 
文件 的 i 节点 号 码 是 惟 -的 , 所 以 不 会 重复 , 其 i 节点 号 码 的 低 8 BER EASA Pb CL 740 íT). 
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从 本 质 上 讲 , Bi 节点 号 码 的 低 8 位 也 是 一 种 杂凑 运算 , 只 不 过 其 杂凑 函数 特别 简单 而 已 。“ 抽 象 地 址 ” 
就 不 同 了 。 在 为 一 个 插口 指定 - -个 抽象 地 址 时 并 不 能 保证 这 个 地 址 的 惟一 性 ， 所 以 要 先 根据 地 址 的 杂 
凑 值 在 相应 的 队列 中 检查 一 下 这 个 地 址 是 否 已 经 存在 ,函数 __unix_find_socket_byname( ) 的 代码 在 文件 
af unix.c 中 ， 很 简单 ; 


[sys_socketcall( ) > sys, bind( ) > unix, bind( ) > . unix find, socket byname ( )] 


248 static unix socket * | unix find socket byname (struct sockaddr un *sunname, 


249 int len, int type, unsigned hash) 
250 { 

251 unix socket *s; 

252 

253 for (s=unix_socket_table[hash type]; s; s=s->next) { 
254 if (s->protinfo, af unix. addr->len==len && 

250 mememp (s->protinfo. af_unix. addr->name, sunname, len) == 0) 
256 return s; 

257 } 

258 return NULL; 

259 } 


接着 ， 就 是 把 插口 的 sock 结构 转移 到 已 经 确定 的 队列 中 了 《〈 见 746 行 和 748 47). 


当初 在 sockfd_lookup( ) 中 通过 fget( ) 递 增 的 ， 所 以 递减 以 后 不 会 达到 0。 


7.4 43 sys_listen( ) 一 一 设 定 server 插口 


以 前 讲 过 ,“ 有 连接 ”模式 的 插口 大 生 就 是 按 client/server 的 模式 运转 的 ， 只 有 在 一 个 server 插口 
和 一 个 client 插口 之 间 才 能 建立 起 连接 。 那么 ,怎样 来 区 分 这 两 种 不 同 的 插口 呢 ? 只 要 在 插口 创建 以 后 
为 其 调用 了 listen( )， 这 个 插口 就 成 为 server MOT. ALE server 插口 都 不 能 主动 去 与 别 的 插口 建立 连 
接 , 而 只 能 被 动 地 通过 accept( ) 接 受 来 白 client 插口 的 连接 请 求 .而 client 插口 则 相反 , 不 能 调用 accept( ) 
来 接受 连接 请 求 ， 而 只 能 主动 地 通过 connect( ) 提 出 连接 请 求 。 

我 们 来 看 sys_listen( ) 的 代码 (socket.c): 


[sys_socketcall( ) > sys listen( )] 


1003 /* 

1004 * Perform a listen. Basically, we allow the protocol to do anything 
1005 * necessary for a listen, and if that works, we mark the socket as 
1006 * ready for listening. 

1007 */ 

1008 

1009 asmlinkage long sys_listen(int fd, int backlog) 

1010 1 

1011 struct socket *sock; 
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1012 int err; 

1013 

1014 if ((sock = sockfd lookup(fd, &err)) != NULL) { 
1015 if ((unsigned) backlog > SOMAXCONN) 

1016 backlog - SOMAXCONN; 

1017 err=sock—->ops—>listen(sock, backlog); 

1018 Sockfd put (sock) ; 

1019 } 

1020 return err; 

1021  ] 


.. Hsys bind( ) 的 代码 比较 一 下 就 可 以 看 出 ， 除 对 参数 backlog 的 处 理 外 ， 二 者 基本 上 是 一 样 的 ， 都 
是 根据 打开 文件 号 fd 找到 插口 的 socket 数据 结构 〈inode 的 一 部 分 )， 进 而 通过 结构 中 的 指针 ops 找到 
相应 的 proto ops 数据 结构 unix stream ops 或 unix_dgram_ops， 再 通过 不 同 的 函数 指针 执行 相应 的 函 
数 。 数 据 结构 unix dgram ops 中 的 指针 listen 设置 为 sock_no_listen( )， 说 明 无 连接 模式 的 插口 并 不 支 
持 listen( )， 而 unix_stream_ops 中 的 指针 listem 则 设置 为 unix_listen( )， 此 限 数 在 文件 af_unix.c F: 


[sys socketcall( ) > sys listen( ) > unix  listen( )] 


431 static int unix listen(struct socket *sock, int backlog) 


432 { 

433 int err; 

434 struct sock *sk = sock-?sk; 

435 

436 err = -EOPNOTSUPP; 

437 if (sock->type!=SOCK_STREAM) 

438 goto out; /* Only stream sockets accept */ 
439 err = -EINVAL; 

440 if (!sk->protinfo. af unix. addr) 

44] goto out; /* No listens on an unbound socket */ 
442 unix state wlock(sk); 

443 if (sk->state != TCP CLOSE && sk->state !- TCP LISTEN) 
444 goto out unlock; 

445 if (backlog > sk-^max ack backlog) 

446 wake up interruptible all(&sk-^protinfo.af unix.peer wait); 
447 sk-?max ack backlog-backlog; 

448 sk-^state-TCP LISTEN; 

449 /* set credentials so connect can copy them */ 

450 sk->peercred. pid = current—>pid; 

451 sk->peercred. uid = current—>euid; 

452 sk->peercred. gid = current—>egid; 

453 err = 0; 

454 

455 out unlock: 

456 unix state wunlock (sk); 

457 out: 

458 return err; 
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459 } 


首先 ， 只 有 播 由 的 类 型 为 SOCK_STREAM， 即 “有 连接 ”模式 的 插口 ， 并 + 已 经 为 上 bind( ) 了 插 
口 地 址 ， 才 允许 listen( )。 其 次 ， 对 于 符合 这 些 条 件 的 插口 也 不 十 什么 时 候 都 可 以 调用 listen( ) 的 。 插 口 
的 sock 结构 中 有 个 成 分 state， 用 来 实现 一 种 “有 限 状 态 机 ”。 只 有 当 这 个 状态 机 处 于 TCP CLOSE 或 
TCP_LISTEN 这 两 种 状态 时 才 可 以 对 其 调用 listen( )。 在 前 向 sock_create( ) 的 代码 中 ， 我 们 看 到 在 创建 
一 个 插口 时 要 调用 函数 sock init data( ) 对 分 配 的 sock 数据 结构 进行 初始 化 ， 在 那里 将 state 设置 成 
TCP_CLOSE. 状态 TCP_CLOSE 表示 插口 只 是 刚刚 建立 ， 尚未 宣称 为 server fH; 而 TCP_LISTEN Bil 
表示 该 插口 已 经 设置 成 server 插 凯 ， 但 尚 术 建 立 起 连接 ， 并 日 不 是 在 等 待 米 白 client 一 方 的 连接 请 求 。 
只 有 在 这 两 种 状态 下 才 允 许 改变 插口 的 参数 主要 是 连接 请 求 队 列 的 容量 )。 这 里 顺便 要 提 F "UA 
连接 ”模式 的 插口 未 必 部 是 采用 TCP 规程 的 ， 人 TCP 是 一 种 典型 的 “有 连接 ”规程 ， 所 以 sock 结构 
中 实现 的 起 个 TCP 状态 机 的 子 集 。 这 样 ， 即 使 插口 的 具体 规程 让 不 是 TCP， 从 插口 的 使 用 来 说 已 经 
REY AL BOK I 

至 于 listen ) 真 下 要 做 的 事情 ， 其 实 是 相当 简单 的 〈 见 447~452 行 )。 除 状态 本 考 的 变化 以 外 ， 就 
是 设置 (或 改变 ) 几 个 参数 ， 主 要 就 是 最 大 队列 长 度 max_ack_backlog， 还 有 就 是 “HOE” BUS 
HITS credentials， 具 体 就 是 进程 的 用 户 号 、 组 号 以 及 进程 号 。 以 后 ， 当 server 方 接受 一 个 连接 请 求 时 ， 
要 将 这 些 信 息 送 回 给 请 求 连 接 的 ，- 方 ， 让 其 知道 究竟 是 谁 接受 了 连接 请 求 。 还 有 ， 当 新 的 队列 容量 比 
原来 有 所 扩大 时 ， 还 要 唤醒 可 能 正在 睡眠 中 等 待 在 将 连接 请 求 扯 入 队列 的 进程 445 一 446 行 )。 


7.5 BŽ sys_accept( ) 一 一 接受 连接 请 求 


“有 连接 ”模式 的 捅 口 一 旦 通过 listen( ) 设 置 成 server 捕 口 以 后 ， 就 只 能 被 动 地 通过 accept ) 接 受 
X Bi client 插 上 的 连接 请 求 。 进 程 对 accept ) 的 调用 是 阻 寨 性 的 ， 就 是 说 如 果 没 有 连接 请 求 就 会 进入 睡 
眠 等 待 ， 直 到 有 连接 请 求 到 来 ， 接 受 了 请 求 以 后 《或 者 超过 了 预定 的 等 竺 时间) 才 会 返回 。 所 以 ， 在 
已 经 和 有 连接 请 求 的 情况 下 是 “接受 连接 请 求 ” 而 在 尚 无 连接 请 求 的 情况 下 是 “等 行 连 接 请 求 ”?。 人 在 内 
核 中 ，accept( ) 是 通过 net/socket.c H BU 2 AL sys_accept() 实 现 的 ， 其 代 旬 在 net/socket.c FP: 


[Sys_socketcall( ) > sys accept( )] 


1022 /* 

1023 * For accept, we attempt to create a new socket, set up the link 
1024 * with the client, wake up the client, then return the new 

1025 * connected fd. We collect the address of the connector in kernel 
1026 * space and move it to user at the very end. This is unclean because 
1027 * we open the socket then return an error. 

1028 * 

1029 * 1003.1g adds the ability to recvmsg( ) to query connection pending 
1030 * status to recvmsg. We need to add that support in a way thats 

1031 * clean when we restucture accept also. 

1032 */ 

1033 

1034 asmlinkage long sys accept(int fd, struct sockaddr *upeer sockaddr, 
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int *upeer addrlen) 


1035  ( 

1036 struct socket *sock, *newsock; 

1037 int err, len; 

1038 char address[MAX SOCK ADDR]; 

1039 

1040 sock = sockfd lookup(fd, &err); 

1041 if (!sock) 

1042 goto out; 

1043 

1044 err = —EMFILE; 

1045 if (! (newsock = sock_alloc( ))) 

1046 goto out put; 

1047 

1048 newsock->type = sock-?type; 

1049 newsock-^ops = sock-?ops; 

1050 

1051 err = sock-^ops-^accept(sock, newsock, sock—file—f flags): 
1052 if (err < 0) 

1053 goto out release; 

1054 

1055 if (upeer sockaddr) { 

1056 if (newsock—>ops—>getname(newsock, (struct sockaddr *)address, &len, 2)«0) { 
1057 err = -ECONNABORTED; 

1058 goto out release; 

1059 } 

1060 err = move addr to user(address, len, upeer sockaddr, upeer_addrlen) ; 
1061 if (err < 0) 

1062 goto out_release; 

1063 } | 

1064 

1065 /* File flags are not inherited via accept( ) unlike another OSes. */ 
1066 

1067 if ((err = sock map fd(newsock)) < 0) 
1068 goto out release; 

1069 

1070 out put: 

1071 sockfd put (sock) ; 

1072 out: 

1073 return err; 

1074 

1075 out release: 

1076 sock release(newsock); 

1077 goto out put; 

1078 } 


说 来 也 许 奇 怪 , 实际 上 一 个 插口 经 listen( ) 设 置 成 server 揪 口 以 后 永远 不 会 与 任何 插口 建立 起 连接 。 
- 38. 


第 7 章 AF socket 的 进程 间 道 信 

因为 一 旦 接受 了 一 个 连接 请 求 之 后 就 会 创建 出 另 一 个 插口 ， 连 接 就 建立 在 这 个 新 的 择 口 与 请 求 连接 的 
那个 插口 之 间 ， 而 原先 的 server 插口 则 并 无 改变 ， 并 且 还 可 再 次 通过 accept( ) 接 受 下 - :个 连接 请 求 ， 器 
好 像 母 鸡 下 借 一 样 。 就 这 样 “ 只 取 常 ， 不 杀 鸡 ”，server 插口 永远 保持 接受 新 的 连接 请 求 的 能 力 ， 但 是 
其 本 身 从 来 不 成 为 某 个 连接 的 一 端 。 正 因为 这 样 ，sys_accept( ) 返 回 的 是 新 插口 的 打开 文件 号 ， 同 时 还 
通过 作为 参数 的 指针 upeer_sockaddr 返 思 对方 的 插口 地 址 。 

代码 中 先 通过 socktd_lookup() 找 到 server 插口 的 socket 结构 , 然后 通过 sock_alloc( ) 分 配 一 个 新 的 
socket 结构 ， 为 “下 蛋 ” 作 好 准备 ， 再 遂 过 相应 proto ops 数据 结构 “对 于 Unix 域 是 unix, stream ops 
或 unix_dgram_ops》〉 中 的 消 数 指针 accept 调用 具体 的 函数 。 从 前 面 数 据 结构 unix_dgram_ops 的 代码 可 
以 看 到 , “无 连接 ”插口 的 accept 函数 指针 设置 为 sock_no_accept( )， 可 见 “ 无 连接 ” 捅 口 并 不 文 持 
accept( )。 而 “有 连接 ”插口 的 accept 指针 则 指向 unix_accept( )， 此 函数 在 文件 af_unix.c H: 


[sys_socketcall( ) > sys accept( ) > unix, accept( )] 


1038 static int unix accept(struct socket *sock, struct socket *newsock, int flags) 
1039 { 

1040 unix socket *sk = sock—>sk; 

1041 unix socket *tsk; 

1042 struct sk buff *skb; 

1043 int err; 

1044 

1045 err = —EOPNOTSUPP ; 

1046 if (sock type!-SOCK STREAM) 

1047 goto out; 

1048 

1049 err = —-EINVAL; 

1050 if (sk-^state!-TCP LTSTEN) 

1051 goto out; 

1052 

1053 /* If socket state is TCP LISTEN it cannot change (for now...), 
1054 * so that no locks are necessary. 

1055 */ 

1056 

1057 skb = skb recv datagram(sk, 0, flags&O_NONBLOCK, &err); 
1058 if (!skb) 

1059 goto out; 

1060 

1061 tsk = skb—^sk; 

1062 skb free datagram(sk, skb); 

1063 wake up interruptible(&sk-^protinfo. af unix. peer wait); 
1064 

1065 /* attach accepted sock to socket */ 

1066 unix state wlock(tsk); 

1067 newsock->state = SS CONNECTED; 

1068 sock graft(tsk, newsock); 

1069 unix state wunlock(tsk); 

1070 return 0; 
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1071 

1072 out: 

1073 return err; 
1074  ] 


以 前 我 们 在 讲 到 插口 的 创建 时 兽 经 提 到 ， 在 sock 结构 中 有 几 个 重要 的 队列 ， 其 中 之 一 是 到 达 报 文 
的 队列 receive_queue。 到 达 的 报 文 〈 更 确切 地 说 是 packet) “RZ” Æ sk buff 数据 结构 中 ， 而 
receive queue 等 等 队列 就 是 sk_buff 结构 的 队 州 。 连 接 请 求 也 是 以 报 文 的 形式 到 达 的 ， 不 过 不 是 一 般 的 
数据 报 文 ， 而 属 二 控制 报 文 。 所 以 ， 所 谓 等 待 连接 请 求 的 到 来 就 是 等 待 这 种 控制 报 文 的 到 来 。 另 一 方 
面 ， 虽 然 这 里 所 说 插口 都 症 “有 连接 ”模式 的 ， 但 那 只 是 对 数据 《〈 报 文 ) 厕 言 ， 而 控制 报 文 实际 上 都 
是 “无 连接 ”的 〈 耕 则 ， 靠 什么 手段 来 建立 最 初 的 连接 呢 ?) 所 以 ， 这 里 通过 skb_recv_datagram( ) 从 
receive queue 队列 中 接收 代表 着 连接 请 求 的 控制 报 文 。 注 意 datagram “数据 报 ”) 并 不 表示 “数据 报 
文 "， 员 是 涪 以 “无 连接 ”模式 传递 的 报 文 ， 切 不 要 把 这 二 者 混淆 了 ， 

e& 3X skb_recv_datagram( ) 的 代码 在 net/core/datagram.c 中 : 





[sys_socketcall( ) > sys_accept( ) > unix accept( ) > skb_recv_datagram( )] 


109 /* 
110 * Get a datagram skbuff, understands the peeking, nonblocking wakeups and possible 
111 * races. This replaces identical code in packet, raw and udp, as well as the IPX 
112 * AX.25 and Appletalk. It also finally fixes the long standing peek and read 
113 * race for datagram sockets. If you alter this routine remember it must be 
114 * re-entrant. 
115 * 
116 * This function will lock the socket if a skb is returned, so the caller 
117 * necds to unlock the socket in that case (usually by calling skb free datagram) 
118 * 
119 * * It does not lock socket since today. This function is 
120 * x free of race conditions. This measure should/can improve 
121 * * significantly datagram socket latencies at high loads, 
122 * * when data copying to user space takes lots of time. 
123 * * (BTW T ve just killed the last cli( ) in IP/IPv6/core/netlink/packet 
124 * * 8) Great win.) 
125 * x --ANK (980729) 
126 * 
L27 * The order of the tests when we find no data waiting are specified 
128 * quite explicitly by POSIX 1003. ig, don't change them without having 
129 * the standard around please. 
130 */ 
131 
132 struct sk buff *skb recv datagram (struct sock *sk, unsigned [lags, 
int noblock, int *err) 
133 { 
134 int error: 
135 struct sk buff *skb; 
136 long timeo; 


. 40 . 


第 7 章 FEF socket 的 进程 间 通 信 


137 

138 /* Caller is allowed not to check sk->err before skb recv datagram( ) */ 
139 error = sock error(sk); 

140 if (error) 

141 goto no packet; 

142 

143 timeo = sock revtimeo(sk, noblock); 

144 

145 do { 

146 /* Again only user level code calls this function, so nothing interrupt level 
147 will suddenly eat the receive queue. 

148 

149 Look at current nfs client by the way... 

150 However, this function was corrent in any casc. 8) 
151 */ 

152 if (flags & MSG PEEK) 

153 { 

154 unsigned long cpu_flags; 

195 

156 spin lock irqsave(&sk-?receive queue. lock, cpu flags); 
157 skb = skb peek(&sk-^receive queue); 

158 if (skb!=NULL) 

159 atomic inc (&skb->users) ; 

160 spin unlock irgrestore(&sk-^receive queue. lock, cpu flags); 
161 ] else 

162 skb = skb dequeue(&sk-^receive queue); 

163 

164 if (skb) 

165 return skb; 

166 

167 /* User doesn't want to wait */ 

168 error - -EAGATN; 

169 if (!timeo) 

170 goto no packet; 

171 

172 } while (wait_for_packet(sk, err, &timeo) == 0); 

173 

174 return NULL; 

175 

176 no_packet: 

177 *err = error; 

178 return NULL; 

1799} 


其 实 我 们 应 该 在 讲述 “无 连接 ”模式 的 报 文 接收 时 再 米 介 绍 这 个 函数 ， 但 是 既然 在 这 儿 完 人 碰 上 了 了 ， 
也 就 只 好 把 它 提 前 了 。 
首先 是 检查 sock 结构 中 的 出 错 代 码 er, 看 看 从 上 一 次 调用 这 个 函数 以 后 全 今 是 省 发 生 了 出 错 , lal 
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时 将 其 清 0。 这 里 的 sock error( ) 是 个 inline 函数， 其 定义 在 include/net/sock.h 中 : 


[sys_socketcall( ) > sys accept( ) > unix_accept( ) > skb_recv_datagram( ) > sock_error( )] 


1197 /* 

1198 * Recover an error report and clear atomically 
1199 */ 

1200 

1201 static inline int sock error(struct sock *sk) 
1202 { 

1203 int err-xchg (&sk-»err, 0) ; 

1204 return -err; 

1205  ] 


如 果 没 有 出 错 的 话 ， 就 可 以 试图 从 队列 中 接收 《〈 脱 链 ) 一 -个 报 文 〈《 即 sk. buff 数据 结构 ) 了 。 这 里 
的 标志 位 MSG_PEEK 是 为 recv( ).. recvfrom( ) 等 库 男 数 设置 的 。 存 调用 那些 库 级 数 时 可 以 把 参数 flags 
中 的 MSG_PEEK 置 成 1， 表 示 只 是 看 :下 队列 中 是 否 有 报 文 可 接收 ， 但 是 并 不 真 的 接收 。 除 此 之 外 ， 
还 有 个 在 文件 操作 中 常用 的 标志 位 O_NONBLOCK， 表 示 如 果 有 报 文 就 接收 ， 但 若 没有 也 得 马上 返回， 
而 不 是 睡眠 等 待 , 这 个 标志 位 也 可 用 于 accept( )。 进 一 步 , 还 可 以 为 等 待 连接 的 操作 设 定 -一 个 时 间 限 制 ， 
这 就 是 参数 noblock 的 作用 。 

大 家 都 知道 ， 队 列 操 作 是 绝 不 容许 打扰 的 《这 种 打扰 可 能 米 白 其 他 进 种， 也 有 可 能 来 外 中 断 服 务 
程序 )， 所 以 在 skb peek( ) 之 前 要 加 锁 。 至 于 skb dequeue( )， 则 已 经 把 这 点 考 虚 进 去 了 A 
include/linux/skbuff.h ): 


[sys_socketcall( ) > sys accept( ) > unix accept( ) > skb_recv_datagram( ) > skb dequeue( )] 


513 fk 

514 * skb dequeue - remove from the head of the queue 

515 * @list: list to dequeue from 

516 * 

517 * Remove the head of the list. The list lock is taken so the function 
518 * may be used safely with other locking list functions. The head item is 
519 * returned or %NULL if the list is empty. 

520 */ 

521 


522 static inline struct sk buff *skb dequeue(struct sk buff head *list) 
523 { 


524 long flags: 

525 struct sk buff *result; 

526 

527 spin lock irgsave(&list-^lock, flags); 

528 result = . skb dequeue(list); 

529 spin unlock irqrestore(&list »lock, flags); 
530 return result; 

ao. 4 
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显然 ， 其 主体 是 __skb_dequeue( ): 


[sys_socketcall( ) > sys accept( ) > unix_accept( ) > skb_recv_datagram( ) > skb_dequeue( ) 
>  skb dequeue] 


484 /** 

485 * skb dequeue - remove from the head of the queue 

486 * @list: list to dequeue from 

487 * 

488 * Remove the head of the list. This function does not take any locks 
489 * so must be used with appropriate locks held only. The head item is 
490 * returned or WNULL if the list is empty. 

49} */ 

492 


493 static inline struct sk buff *__skb dequeue (struct sk buff head *list) 
494 f 


495 struct sk buff *next, *prev, *result; 
496 

497 prev = (struct sk buff *) list; 
498 next = prev-?next; 

499 result - NULL; 

500 if (next != prev) { 

501 result - next; 

502 next = next~>next; 

503 list->qlen--; 

504 next—>prev = prev; 

505 prev-?next = next; 

506 result->next = NULL; 

507 result->prev = NULL; 

508 result—>list = NULL; 

509 } 

510 return result; 

511} 


如 果 队 列 中 有 报 文 的 话 ， 接 收成 功 ， 就 可 以 返回 了 A 165 (70. BARA? MBA 
accept( ) 时 的 O_NONBLOCK 标志 是 否 为 1， 如 果 古 的 话 ， 就 马上 出 错 迟 回 CX 170 fT), BERBEA 
—EAGAIN; ANART wait for packet ) 睡 眠 等 待 。 这 个 函数 的 代码 在 net/core/datagram.c 中 : 


[sys_socketcall( ) > sys_accept( ) > unix_accept( ) > skb_recv_datagram( ) > wait for packet( )] 


63 static int wait for packet(struct sock * sk, int *err, long *timeo p) 


64 {í 

65 int error; 

66 

67 DECLARE WAITQUEUE(wait, current); 

68 

69 = set current state(TASK INTERRUPTIBLE|TASK EXCLUSIVE); 
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70 add waitl queue exclusive(sk-^sleep, &waii); 

71 

72 /* Socket errors? */ 

73 error = sock error (sk): 

74 if (error) 

75 goto out; 

76 

77 if (!skb_queue_empty (&sk-^receive queue) ) 

78 goto ready; 

19 

80 /* Socket shut down? */ 

81 if (sk-^shutdown & RCV SHUTDOWN) 

82 goto out; 

83 

84 /* Sequenced packets can come disconnected. If so we report the problem */ 

85 error = -ENOTCONN; 

86 if(connection based(sk) && !(sk-^state--TCP ESTABLISHED | | 
sk->state==TCP LISTEN) ) 

87 goto out; 

88 

89 /* handle signals */ 

90 if (signal pending(current)) 

9i goto interrupted; 

92 

93 *timeo p = schedule_timeout (*timeo p): 

94 

95 ready: 

96 current~>state = TASK RUNNING: 

97 remove_wait_queue(sk—>slecp, &wait); 

98 return 0; 

99 

100 interrupted: 

101 error = sock intr errno(*timeo p); 

102 out: 

103 current >state = TASK RUNNING: 

104 remove wait queue(sk-^slecp, &wait); 

105 *err - error; 

106 return error; 

107 } 


这 里 sock 数据 结构 中 的 指针 sleep 指向 socket 结构 中 的 队列 wait, 是 创建 插 凯 时 在 sock. init data( ) 

中 设置 好 了 的 。 至 十 数据 结构 wait， 是 由 DECLARE, WAITQUEUE( ) 定 义 的 一 个 局 部 量 ， 其 宁 间 在 当 

前 进程 的 系统 空间 堆栈 1]:， 也 就 是 让 wait_for_packet( ) 的 调用 框架 中 ， 只 要 不 从 这 个 函数 返 同 就 一 下 是 

有 效 的 ,。 通过 wait_for_packet( ) 将 数据 结构 wait FEA sock 结构 的 sleep KAM, 就 等 二 把 当前 进程 持 入 了 

H 标 插口 的 《连接 请 求 ) 等 待 队 州 。 从 这 里 也 可 看 出 ， 多 个 进程 在 同 -- 个 插口 上 等 待 连接 请 求 是 允许 

的 。 当 前 进程 通过 schedule_timeout( AERUS, W- AEAF REZ 一 发 生 时 才 会 被 晓 醒 而 
.44. 
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从 schedule_timeout( ) 返 同 ， 那 就 是 ，Q 中 有 连接 请 求 到 达 ，@@ 接 收 人 到 了 一 个 信号 ; @ 到 达 了 预定 的 等 入 
时 间 。 在 这 三 种 情况 下 wait_for_packet( ) 的 返回 值 都 是 0， 所 以 在 skb_recv_datagram( ) 的 do-while 循环 
中 都 会 再 执行 一 次 循环 体 ， 再 作 最 后 一 次 尝试 。 此 外 ，wait_for_packet( ) 还 通过 指针 timeo. p 返回 还 剩 
下 的 等 等 时 间 。 

读者 也 许 注意 到 了 ， 这 里 的 处 理 与 进程 在 许多 系统 调用 中 从 睡眠 醒 来 时 有 所 不 同 。 一 般 ， 当 一 个 
进程 从 睡眠 中 醒 来 时 要 先 检查 是 否 有 信和 号 到 达 ， 如 果 有 就 提前 结束 本 次 系统 调用 ， 先 对 信号 作出 反应 。 
而 这 里 则 木 同 ， 醒 来 后 还 是 回 到 循环 体 中 再 试 一 次 ， 这 是 为 什么 呢 ? 实际 上 ， 是 否 要 提前 结束 本 次 系 
统 调用 不 能 一 概 而 论 ， 要 看 继续 往 下 执行 是 否 能 在 .个 有 限 的 短 时 间 内 完成 。 在 这 里 的 循环 体 中 执行 
的 基本 上 就 是 skb_dequeue( )， 那 只 是 举 手 之 劳 ， 下 面 还 会 看 到 在 接收 到 一 个 报 文 后 的 处 理 也 很 简单 ， 
所 以 还 不 如 再 试 ， 次 ， 哪 怕 不 成 功 ， 再 来 处 理 信 号 也 还 不 迟 。 所 以 ， 如 果 这 -次 成 功 了 当然 最 好 ， 于 
就 会 在 165 行 返回 ， 要 是 仍 不 成 功 ， 而 时 间 已 经 到 点 《timeo 变 成 了 0)， 那 就 会 在 170 TART: 
否则 ， 那 就 应 该 是 因为 接收 到 信和 号 而 被 唤 醋 了 《队列 中 没有 报 文 ， 时 间 又 未 到 点 》， 当 上 髓 次 调用 
wait_for_packet( ) 的 时 候 就 会 在 那里 的 91 行 转 到 interrupted 处 ， 从 而 结束 do-while 循环 并 返回 一 个 出 
错 代 码 。 至 于 对 信号 的 处 理 ， 则 在 从 系统 调用 返回 时 自 会 按 常 规 进 行 。 

有 关连 接 请 求 的 到 达 ， 以 及 唤醒 正在 sys accept( ) 中 睡眠 的 进程 可 以 参看 后 面 对 connect ) 的 介绍 ， 
这 里 我 们 假定 连接 请 求 已 经 到 达 了 。 所 以 ， 从 wait_for_packet( ) 返 加 以 后 青 试 一 次 就 成 功 了 。 

[318] unix_accept( ) 的 代码 中 (1058 行 )， 指 针 skb 指向 接收 到 的 sk. buff IB ESI. 这 种 数据 结构 
是 在 include/linux/skbuff.h 中 定义 的 ， 山 于 要 考虑 到 各 种 不 同 的 规程 ， 其 定义 长 达 将 近 100 行 。 另 - H 
面 ， 我 们 在 本 书 中 所 关心 的 只 是 Unix 域 ， 所 以 就 不 列 出 它 的 定义 了 。 对 十 Unix 域 的 插口 ， 在 sk buff 
数据 结构 中 有 个 sock 结构 指针 sk， 指 向 一 个 sock 数据 结构 ， 就 是 代码 中 的 tsk。 这 个 sock 结构 是 由 请 
求 连接 的 那 一 方 送 过 来 、 供 接受 连接 的 一 方 使 用 的 , 注意 tsk 与 “task” 毫 无 关系 ， 大 概 是 “target sock” 
的 意思 。 

前 面 ， 在 sys_accept( ) 中 (1045 fr) 已 经 调用 了 sock_alloc( )， 分 配 了 一 个 新 的 socket £M) CIS 
是 inode 结构 )， 那 就 是 unix_accept( ) 的 参数 newsock. 1E sock, alloc( Jf" xe sock. create( )， 它 并 不 分 
配 与 socket 结构 配对 的 sock 结构 ， 从 这 个 意义 上 上 讲 ， 这 个 新 的 插口 还 不 完整 。 那 么 什么 时 候 才 分 配 所 
需 的 sock 数据 结构 呢 ? 这 是 由 client 一 方 在 connect() 的 过 程 中 分 配 ， 并 且 将 其 指针 通过 用 作 连 接 请 求 
报 文 的 sk buff 结构 带 过 来 的 ， 这 就 是 这 里 的 tsk。 现 在 ， 就 通过 sock graft( ) 将 client - 方 提供 的 tsk 
5 server 一 方 提供 的 newsock $E Ej]. (1068 行 )。 


[sys_socketcall( ) > sys accept( ) > unix, accept( ) > sock graft ( )] 


1014 static inline void sock graft(struct sock *sk, struct socket *parent) 


10015 d 

1016 write lock bh(&sk->callback lock); 
1017 sk-»sleep = &parent—wait; 

1018 parent-?sk = sk; 

1019 sk-^socket = parent; 

1020 write unlock bh(&sk-^callback locl); 
1021  ] 


这 样 ， 就 完成 了 主要 的 连接 过 程 ， 因 为 tsk 与 cjient -AEI sock 结构 事先 已 经 互相 “背靠背 ”连接 
好 了 。 同 时 ， 新 的 socket 结构 的 状态 也 妆 接 设置 成 SS_CONNECTED。 但 是 请 注意 ， 原 先 的 socket £i 
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构 的 状态 却 并 未 改变 。 


读者 也 许 会 问 ， 代 码 中 并 没有 对 接收 到 的 报 文 ， 即 sk buff 结构 ， 作 什么 检查 ， 怎 么 就 能 知道 它 一 
定 是 个 连接 请 求 报 文 呢 ? 答案 是 ， 只 有 连接 请 求 才能 挂 入 到 server 插口 的 receiver. queue 队列 中 。 数 据 
报 文 是 不 能 够 挂 入 到 这 个 队列 中 的 ， 它 们 只 能 挂 入 到 建立 了 连接 的 新 插口 的 receive queue 队列 中 。 另 
外 ， 也 只 有 在 connect( ) 的 过 程 中 才 会 唤 静 正在 等 待 连接 请 求 的 进程 。 所 以 ， 对 十 Unix 域 的 插口 来 说 ， 
古人 否 有 “控制 报 文 ” 这 个 概念 ， 其 实 也 无 关 紧 要 ， 只 是 为 了 与 网 络 环境 下 的 插口 机 制 保持 概念 上 以 及 
实现 上 的 一 致 性 才 套 用 了 这 些 概念 。 

接受 了 一 个 连接 请 求 以 后 ，- 方面 要 释放 报 文 ， 另 一 方面 要 把 请 求 连接 的 -- 方 唤醒 。 前 面 提 到 过 ， 
receive queue. 队列 的 长 度 是 有 限制 的 ， 如 果 队 列 中 的 报 文 数 量 已 经 达到 了 上 限 ， 则 新 到 达 的 报 文 就 因 
无 法 “投递 ”而 只 好 让 client 方 进入 睡眠 等 待 。 现 在 ，server 方 接收 了 一 个 报 文 以 后 ，receive_queue BA 
列 的 长 度 下 降 了 , 就 可 以 把 可 能 正在 睡眠 等 待 的 进程 唤醒 了 (1063 412. 这 里 的 wake_up_interruptible( ) 
是 个 宏 操 作 ， 定 义 于 include/linux/sched.h F: 


#define wake up interruptible(x) _ wake up((x),TASK INTERRUPTIBLE, WQ FLAG EXCLUSIVE) 


调用 参数 WQ FLAG EXCLUSIVE 表示 如 果 有 多 个 进程 在 睡眠 等 待 就 只 唤醒 其 中 一 个 。 

加 到 sys accept( ) 的 代码 中 。 如 果 用 户 进 程 提供 了 用 来 返回 对 方 地 址 的 数据 结构 指针 
upeer_sockaddr, 就 要 通过 相应 proto. ops 结构 中 的 盟 数 指针 getname 来 获取 对 方 的 插口 地 址 。 在 数据 结 
构 unix stream ops 中 ， 函 数 指针 getname 设置 为 unix_getname( )， 其 代码 在 af_unix.c 中 ， 


[sys_socketcall( ) > sys accept( ) > unix. getname( )] 


1077 static int unix getname(struct socket *sock, struct sockaddr *uaddr, 
int *uaddr len, int peer) 

1078 { 

1079 struct sock *sk = sock-5sk; 

1080 struct sockaddr un *sunaddr=(struct sockaddr un *)uaddr: 

1081 int err = 0; 

1082 

1083 if (peer) { 

1084 sk = unix peer get (sk): 

1085 

1086 err = -ENOTCONN; 

1087 if (!sk) 

1088 goto out; 

1089 err = 0; 

1090 } else { 

1091 sock hold(sk); 

1092 } 

1093 

1094 unix state rlock(sk); 

1095 if (!sk->protinfo. af_unix. addr) { 

1096 sunaddr-^sun family = AF UNIX; 

1097 sunaddr->sun_path[0] = 0: 


. 46 . 


第 7 章 EEF socket 的 进程 间 通 信 


1098 *uaddr len = sizeof (short); 

1099 | else 1 

1100 struct unix address *addr = sk-?protinfo. af unix. addr; 
1101 

1102 *uaddr len = addr->len; 

1103 mémcpy(sunaddr, addr-^name, *uaddr len); 
1104 j 

1105 unix state runlock(sk); 

1106 sock. put (sk) ; 

1107 out: 

1108 return err; 

1100 } 


这 个 函数 既 可 以 用 来 获取 对 方 插口 的 地 址 , 也 可 以 用 来 犹 取 本 插口 的 地 址 , 具体 由 参数 peer AE. 
在 这 里 由 于 调用 时 将 参数 的 值 设 成 1， 所 以 取 的 是 对 方 地 址 。 函 数 unix peer get( ) 通 过 sock 结构 中 的 
指针 pair 取得 指向 对 方 sock 结构 的 指针 。 如 前 所 述 ， 与 newsock 配对 的 sock 结构 是 由 调用 connect( ) 
的 一 方 分 配 和 设置 的 ， 当 然 也 包括 指针 pair 的 设置 。 所 以 ， 在 调用 了 unix peer get( ) 以 后 ， 代 码 中 的 
Bet sk 就 改 成 指向 对 方 的 sock 结构 了 。 


[sys_socketcall{ ) > sys_accept( ) > unix_getname( ) > unix, peer. get ( )] 


152 static . inline . unix socket * unix peer get(unix socket *s) 
153 { 

154 unix socket *peer; 

155 

156 unix state rlock(s): 
157 peer - unix peer(s); 
158 if (peer) 

159 sock hold(peer); 
160 unix state runlock(s); 
161 return peer; 

162  ] 


140 define unix peer (sk) ((sk)—>pair) 
MZ, sock hold( ) 则 只 是 递增 sock 结构 中 的 使 用 计数 〈 见 sock. b): 


[sys_socketcall( ) > sys_accept( ) > unix getname( ) > sock hold( )] 


967 /* Grab socket reference count. This operation is valid only 

968 when sk is ALREADY grabbed f.e. it is found in hash table 

969 or a list and the lookup is made under lock preventing hash table 
970 modifications. 

971 */ 

972 


973 static inline void sock hold(struct sock *sk) 
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974 { 
975 atomic_inc (&sk—>refent) ; 
976  ] 


前 面 讲 过 , server 插口 必须 有 个 地 址 , 这 样 client 方才 能 通过 地 址 来 找到 server 插口 的 数据 结构 ， 
所 以 在 创建 了 插口 以 后 定 要 调用 bind( ) 将 其 “捆绑 ”到 一 个 地 址 上 。 可 是 ， 对 于 client 一 方 的 插口 来 
说 ， 它 只 能 主动 地 去 寻找 某 个 server 插口 ， 别 的 插口 是 不 会 来 寻找 它 的 。 元 其 是 Unix 域 的 插口 ， 所 传 
递 的 报 文 都 是 在 同一 计算 机 中 而 无 需 穿越 网 络 。 所 以 实际 上 没有 必要 让 client 插口 也 有 个 地 址 ， 当 然 有 
也 无 妨 。 这 样 ， 在 unix_getname( ) 中 就 要 考虑 到 两 种 情况 ， 一 种 是 sock 结构 所 属 的 插口 根本 就 没有 地 
bE (1095 行 )， 另 一 种 则 是 有 地 址 的 《1099 行 )。 

再 门 到 sys_accept( ) 的 代码 中 。 最 后 一 件 事 就 是 为 新 创建 的 插口 也 分 配 一 个 打开 文件 号 以 及 相应 的 
file 结构 ， 并 返回 这 个 打开 文件 号 。 函 数 sock_map_fd( ) 的 代码 读者 在 sys_socket( ) 中 已 经 看 到 过 ， 这 里 
就 不 重复 了 。 


7.6 函数 sys connect( ) 一 一 请 求 连 接 

以 前 讲 过 ,“ 有 连接 ”模式 的 插口 与 “无 连接 ”模式 的 插口 都 可 以 调用 库 函数 connect( )， 但 是 意义 
元 个 同 。 内 核 中 的 函数 sys_connect( ) 是 二 者 公用 的 ， 只 是 因 “ 安 装 ” 在 插口 上 的 proto. ops 数据 结构 的 
不 同 而 通过 不 同 的 函数 指针 转 入 不 同 的 处 理 程 序 。 函 数 sys_connect( ) 的 代码 在 文件 net/socket.c 中 


[sys_socketcall( ) > sys_connect( )] 


1081 /* 

1082 * Attempt to connect to a socket with the server address. The address 
1083 * is in user space so we verify it is OK and move it to kernel space. 
1084 * 

1085 * For 1003. 1g we need to add clean support for a bind to AF UNSPEC to 
1086 * break bindings 

1087 * 

1088 * NOTE: 1003.1g draft 6.3 is broken with respect to AX. 25/NetROM and 
1089 * other SEQPACKET protocols that take time to connect( ) as it doesn't 
1090 * include the -EINPROGRESS status for such sockets. 

1091 */ 

1092 

1093 asmlinkage long sys connect(int fd, struct sockaddr *uservaddr, int addrlen) 
1094 { 

1095 struct socket *sock; 

1096 char address[MAX SOCK ADDR]; 

1097 int err; 

1098 

1099 sock = sockfd lookup(fd, &err); 

1100 if (!sock) 

1101 goto out; 

1102 err - move addr to kernel(uservaddr, addrlen, address); 
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1103 if (err < 0) 

1104 goto out put; 

1105 err = sock-^?ops-?connect(sock, (struct sockaddr *) address, addrlen, 
1106 sock: >file>f_ flags); 

1107 out_put: 

1108 sockfd put (sock) ; 

1109 out: 

1110 return err; 


1111 } 


如 前 所 述 ，socket 结构 中 的 指针 ops 指向 某 个 proto_ops 数据 结构 ， 对 十 unix 域 的 插口 有 两 种 
proto ops 数据 结构 ， 分 别 用 于 “有 连接 ” 插口 和 “无 连接 ”插口 。 数 据 结构 unix stream ops 中 的 指 
针 connect 指向 unix_stream_connect( ), 而 unix dgram ops 中 的 这 个 指针 则 指向 unix_dgram_connect( )。 

先 来 看 “有 连接 ”模式 的 插口 。 如 前 所 述 ， 只 有 client ATTA OHER) 通过 conect ) 
向 --… 个 server 插口 提出 连接 请 求 ， 在 请 求 被 server 插口 接受 而 建立 起 连接 之 前 是 不 能 在 两 个 插口 之 间 
传递 数据 报 文 的 。 函 数 unix_stream_connect( ) 的 代码 在 net/unix/a£ unix.c 中 ， 我 们 分 段 往 下 看 : 


[sys_socketcall( ) > sys connect( ) > unix stream connect( )] 


852 static int unix stream connect (struct socket *sock, struct sockaddr *uaddr, 
853 int addr len, int flags) 

854 { 

855 struct sockaddr un *sunaddr= (struct sockaddr un *) uaddr; 
856 struct sock *sk = sock -?sk; 

857 struct sock *newsk - NULL; 

858 unix socket *other - NULL; 

859 struct sk buff *skb - NULL; 

860 unsigned hash; 

861 int st; 

862 int err; 

863 long timeo; 

864 

865 err = unix mkname(sunaddr, addr len, &hash); 

866 if (err < 0) 

867 goto out; 

868 addr len = err; 

869 

870 if (sock->passcred && !sk->protinfo.af unix. addr && 
871 (err = unix autobind(sock)) != 0) 

872 goto out; 

813 

874 timeo = sock sndtimeo(sk, flags & O_NONBLOCK) ; 

875 

876 /* First of all allocate resources. 

877 If we will make it after state is locked, 

878 we will have to recheck all again in any case. 
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879 */ 

880 

881 err = —ENOMEM; 

882 

883 /* create new sock for complete connection */ 
884 newsk = unix createl (NULL) ; 

885 if (newsk == NULL) 

886 goto out; 

887 

888 /* Allocate skb for sending to listening sock */ 
889 skb = sock wmalloc(newsk, 1, 0, GFP KERNEL): 
890 if (skb == NULL) 

891 goto out; 

892 


这 里 函数 unix. mkname( ) 的 作用 是 将 呈 标 插口 的 地 址 加 以 某 种 “规格 化 ”并 返回 其 长 度 。 如 果 这 
个 地 址 十“ 个 “抽象 地 址 ”， 则 还 要 计算 出 它 的 杂 站 值 ， 其 代码 我 们 已 经 在 介绍 sys socket( ) 时 看 到 过 
T. AH socket 数据 结构 中 有 个 标志 passcred， 意 为 “pass credentials”， 就 是 要 把 自己 的 “身份 ” 告 
诉 对 方 。 在 插口 创建 之 初 这 个 标志 为 0， 但 是 可以 在 用 户 程序 中 通过 setsockopt( ) 将 其 设置 成 1]。 所 谓 
身份 ， 当 然 包括 地 址 。 所 以 ， 如 果 播 口 没 有 地 址 却 又 得 把 身份 告诉 对 方 ， 则 必须 调用 unix autobind( ) 
自动 生成 一 个 地 址 〈871 行 )。 

与 accept( ) 一 样 , connect( ) 也 是 阻塞 性 的 , 如 果 连 接 请 求 不 能 得 到 server 方 接 受 就 会 进入 睡眠 等 待 ， 
直到 server 方 接 受 了 连接 请 求 ( 或 者 超过 了 预定 的 等 待 时 间 〉 才 会 返回 。 不 过 也 可 以 把 参数 flags 中 的 
O NONBLOCK 为 标志 位 ， 使 得 在 连接 请 求 不 能 马上 得 到 接受 时 就 立即 返 同 。 这 里 的 sock_sndtimeo( ) 
是 个 inline 函数 ， 定 义 十 include/net/sock.h 中 : 


[sys socketcall( ) > sys connect( ) > unix_stream_connect( ) > sock_sndtimeo( )] 


1249 static inline long sock sndtimeo (struct sock *sk, int noblock) 
1250 { 

1251 return noblock ? 0 : sk->sndtimeo; 

1252 } 


然后 ， 通 过 uuix createl( )4) — T 3E] sock 数据 结构 ， 其 代码 我 们 已 经 在 介绍 sys. socket( ) 时 看 
到 过 。 这 个 新 的 sock 数据 结构 是 为 server 一 方 在 调用 accept( ) 时 创建 新 的 插口 而 准备 的 。 如 前 所 述 ， 
个 插口 除了 有 一 个 socket 数据 结构 〈 实 际 上 是 inode 数据 结构 的 - -部 分 ) 外 ， 还 要 有 个 与 之 配套 使 
用 的 sock 结构 。 对 Unix 域 的 “有 连接 ”模式 插口 而 言 ， 这 个 数据 结构 起 由 client -一方 在 这 里 分 配 的 ， 
并 将 其 地 址 newsk 通过 连接 请 求 报 文 传递 到 server 一 方 。 代 表 着 连接 请 求 的 sk buff 数据 结构 则 由 
sock, wmalloc( ) 分 配 并 初始 化 (sock.c): 


[sys_socketcall( ) > sys connect( ) > unix stream connect( ) > sock_wmalloc( )] 


654 /* 
655 * Allocate a skb from the socket's send buffer. 
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656 */ 

657 struct sk buff *sock_wmalloc (struct sock *sk, unsigned long size, 
int force, int priority) 

658 | 

659 if (force || atomic read(&sk-»wmem alloc) € sk->sndbuf) { 

660 struct sk buff * skb = alloc_skb(size, priority) ; 

661 if (skb) | 

662 skb set owner w(skb, sk); 

663 return skb; 

664 ] 

665 } 

666 return NULL; 

667  ] 


代码 中 的 sk->wmem_alloc 是 sock 结构 中 的 一 个 计数 器 ， 几 来 累计 为 本 插口 分 配 的 sk. buff 4 fie 2 
间 ， - 般 本 应 超过 为 该 插 日 设置 的 限额 sk->sndbuf, 但 是 可 以 通过 把 参数 force 设 成 1 米 打破 这 个 限制 。 
参数 size 为 随同 sk. buff 结构 发 送 的 数据 缓冲 区 的 大 小 ， 这 里 在 调用 时 设置 成 1， 不 过 实际 分 配 时 是 以 
16 个 字 节 为 单位 的 ， 所 以 实际 上 是 16 个 字 节 。 函 数 skb_owner_w( ) 对 分 配 到 的 sk. buff 进行 “ 些 初 始 
化 Csock.h): 


[sys_socketcall( ) > sys connect( ) > unix stream, connect( ) > sock_wmalloc( ) > skb owner w()] 


1120 /* 

1121 * Queue a received datagram if it will fit. Stream and sequenced 
1122 * protocols can’t normally use this as they need to fit buffers in 
1123 * and play with them. 

1124 * 

1125 * Inlined as it’s very short and called for pretty much every 

1126 * packet ever received. 

1127 */ 

1128 

1129 static inline void skb set owner w(siruct sk buff *skb, struct sock *sk) 
130 | 

1131 sock hold(sk); 

1132 skb-^sk = sk; 

1133 skb->destructor = sock wfree; 

1134 atomic add(skb-^truesize, &sk~>wmem alloc); 

1135- 3} 


这 里 使 报 文 缓冲 区 路 的 指针 sk 指向 为 server 772) BOB sock 数据 结构 , 同时 还 此 把 报 文 缓冲 区 中 的 
函数 指针 destructor 设置 成 指向 sock_wfree( ), 使 server 方 将 来 能 按 止 确 的 途径 释放 这 个 缓冲 区 。 最 后 ， 
skb->truesize 为 包括 数据 缓冲 区 在 内 的 实际 大 小 ， 其 初始 值 是 在 alloc_skb( ) 中 设置 的 。 

问 到 unix_stream_connect( ) 中 。 至 此 , 我 们 已 经 分 配 了 一 个 sock 结构 以 及 一 个 空白 的 sk_buff 结构 。 
让 我 们 继续 往 下 看 《af_unix.c): 


[sys_socketcall( ) > sys_connect( ) > unix stream connect( )] 
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893 restart: 


894 /* Find listening sock. */ 

895 other-unix find other(sunaddr, addr len, sk-^type, hash, &err); 
896 if (lother) 

897 goto out; 

898 

899 /* Latch state of peer */ 

900 unix state rlock(other); 

901 

902 /* Apparently VFS overslept socket death. Retry. */ 
903 if (other->dead) { 

904 unix state runlock (other); 

905 sock put (other); 

906 goto restart; 

907 } 

908 

909 err = -ECONNREFUSED; 

910 if (other->state != TCP LISTEN) 

911 goto out unlock; 

912 

913 if (skb queue len(&other-^receive queue) > other-^max ack backlog) | 
914 err = —EAGAIN: 

915 if (!timeo) 

916 goto out_unlock; 

917 

918 timeo - unix wait for peer(other, timeo); 
919 

920 err = sock intr errno(timeo); 

921 if (signal pending(current)) 

922 goto out; 

923 sock put (other); 

924 goto restart; 

925 } 

926 


函数 unix, find. other( ) 根 据 给 定 的 地 址 找到 目标 插口 的 sock 数据 结构 ， 其 代码 也 在 af_unix.c P: 


[sys_socketcall( ) > sys connect( ) > unix, stream connect( ) > unix find other( )] 


588 static unix socket *unix find other (struct sockaddr un *sunname, int len, 
589 int type, unsigned hash, int *error) 

590 { 

59] unix socket *u; 

592 struct nameidata nd; 

593 int err = 0; 

594 

595 if (sunname->sun_path[0]) { 
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.596 if (path init (sunname->sun path, 

597 LOOKUP POSITIVE|LOOKUP FOLLOW, &nd)) 
598 err = path walk(sunname-^?sun path, &nd); 
599 if (err) 

600 goto fail; 

601 err = permission (nd. dentry-»d inode, MAY WRITE); 
602 if (err) 

603 goto put fail; 

604 

605 err = -ECONNREFUSED; 

606 if (IS ISSOCK (nd. dentry-»d inode-^i, mode)) 

607 goto put fail; 

608 u-unix find socket_byinode (nd. dentry->d_inode) ; 
609 if (lu) 

610 goto put fail; 

611 

612 path_release (&nd) ; 

613 

614 err--EPROTOTYPE ; 

615 if (u->type != type) { 

616 sock. put (u); 

617 goto fail; 

618 } 

619 } else { 

620 err = ~ECONNREFUSED; 

621 u-unix find socket byname(sunname, len, type, hash) ; 
622 if (lu) 

623 goto fail; 

624 ) 

625 return U; 

626 

621 put fail: 

628 path. release (&nd) ; 

629 Tall 

630 *error-err; 

631 return NULL: 

632} 


可 见 ， 对 于 常规 的 以 文件 路 径 名 为 代表 的 插口 地 址 ， 要 先 通过 义 件 系统 的 操作 path_init( ) 和 
path_walk( ) 在 文件 系统 中 找到 其 日 隶 项 和 索引 节点 ， 并 在 内 存 中 建立 起 相应 的 dentry 结构 以 及 inode 
结构 。 然 后 ， 就 使 用 其 索引 节点 号 ， 通 过 unix_find_sock_byinode( ) 在 杂凑 表 unix_socket_table 中 找到 
相应 的 队列 和 sock 数据 结构 .对 于 “抽象 地 址 ” 则 使 用 该 地 址 的 杂凑 值 通过 unix_find_socket_bynamet ) 
在 unix_socket_ table 中 寻找 。 找 到 了 对 方 的 sock 结构 以 后 ，- :者 都 会 通过 sock_hold( ) 将 结构 中 的 访问 
计数 refcnt 加 1， 表 示 这 个 结构 现在 多 了 -个 “用 户 ”。 

回 到 unix_stream_connect( ) 的 代码 中 (895 行 )。 找 到 了 server 插口 的 sock 结构 以 后 ， 指 名 other 
蕴 向 这 个 结构 。 但是， 在 对 这 个 sock 结构 进行 任何 操作 之 前 赴 查 确认 这 个 sock 结构 不 处 村 正 被 撤销 的 
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过 程 中 。 虽 然 对 Unix SEDIT. server 和 client 双方 都 在 同一 台 计算 机 上 ， 但 是 在 SMP 多 处 理 器 
结构 下 两 个 进程 有 可 能 在 两 个 不 同 的 处 理 器 中 运行 (但 是 共用 内 存 )}。 所 以 有 可 能 发 生 这 么 -一 种 情况 ， 
束 是 当 client 方 的 进程 运行 到 这 里 ， 即 从 杂凑 表 的 队 询 中 找到 了 server 插口 的 sock 结构 时 ， 恰好 在 另 
一 个 处 理 器 中 运行 的 server 方 的 进程 已 经 在 关闭 、 撤 销 这 个 插口 了 。 如 果 不 采 取 有 效 的 措施 加 以 防范 ， 
BLN] AE Ht BL E fa: 当 client 方 进程 在 自 以 为 找到 了 server 插口 的 sock 结构 ， 并 且 通 过 other 指针 对 
其 操作 (例如 将 报 文 挂 入 它 的 receive_queue 队列 中 ) 时 ， 事 实 上 server 方 进程 已 经 释放 了 这 个 sock 结 
构 的 空间 。 那 么 ， 内 核 中 采取 了 什么 样 的 措施 来 防止 这 种 情况 的 发 生 呢 ? 
(1) 在 sock 结构 中 设置 了 一 个 访问 计数 器 refcnt。 冬 当 菜 一 进程 卷 入 到 这 个 结构 的 使 用 时 ， 或 者 
当 所 属 的 插口 建立 起 个 连接 时 , 就 要 通过 sock_hold( ) 将 这 个 计数 器 加 1. 前 面 我 们 提 到 过 ， 
当 client 方 进 程 从 unix_socket_table 表 中 的 队列 里 找到 server 插口 的 sock 数据 结构 时 ， 就 会 
通过 sock hold( ) 将 这 个 结构 中 的 访问 计数 refent Dn 1, Hope 已 经 在 前 一 节 中 看 到 过 了 。 
(2) 相应 地 ， 每 当 一 个 进程 结束 了 对 一 个 插口 的 使 用 时 ， 或 者 拆除 一 个 连接 时 ， 都 要 通过 另 一 个 
inline 函数 sock_put( ) 将 相应 sock 结构 中 的 计数 器 refcnt 减 1. 只 有 在 这 个 计数 器 达到 了 0 时 ， 
才 人 允许 (并 且 必 须 ) 将 这 个 sock 结构 释放 : 


986 / Ungrab socket and destroy ii, if it was the last reference. */ 
987 static inline void sock put(struct sock *sk) 


988 { 

989 if (atomic dec and test (&sk->refent)) 
990 sk free (sk) ; 

991  ) 


[sock put( ) sk free( )] 


985 void sk free(struct sock *sk) 


586 f 

587 #ifdef CONFIG FILTER 

588 struct sk filter *filter; 
589 #endif 

590 

591 if (sk destruct) 

592 sk~->destruct (sk) ; 

593 

594 #ifdef CONFIG FILTER 

595 filter = sk->filter; 

596 if (filter) { 

597 sk filter release(sk, filter); 
598 sk->filter = NULL; 
599 } 

600 Sendif 

601 aa 


602 if (atomic read(&sk-^omem alloc)) 
printk (KERN_DEBUG "sk frce: optmem leakage (%d bytes) detected. \n”, 
603 atomic read(&sk->omem alloc)); 


604 
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605 kmem cache free(sk cachep, sk); 
606  ] 


注意 592 行 对 destruct eK ILE UR FH, 3c i GRE AE TEATRO sock 数据 结构 时 设置 好 了 的 ,用 
来 在 释放 缓冲 区 之 前 完成 一 些 必 划 的 附加 操作 。605 47 A) kmem. cache, free( ) 则 将 给 定 的 sock 
结构 在 其 slab 中 加 以 释放 。 

(3) ， 关闭、 撤销， .个 插口 时 ， 其 sock 结构 中 的 计数 refcnt 有 可 能 还 大 于 1， 表 示 述 有 用 户 ， 所 以 

不 能 马上 将 这 个 结构 释放 ， 而 只 能 将 其 refent 计数 减 1， 把 释 放 该 结构 的 贡 任 留 给 最 后 将 这 
个 计数 减 到 0 的 邯 个 进程 。 但 是 , 光 任 计数 refcnt 不 足以 说 明 该 插口 在 逻辑 上 是 否 已 经 撤销 ， 
所 以 在 sock 结构 中 又 设置 了 一 个 标志 量 dead, ARREZ sock 结构 中 的 refent 还 个 是 0, 所 
以 还 不 能 把 数据 结构 最 后 释放 ， 但 实际 上 插 帖 已 经 不 存在 了 。 

(4) 光 是 对 sock 结构 的 使 用 和 释放 加 以 保护 还 人 不够 ， 还 要 防止 对 sock 结构 的 使 用 例如 报 文 的 
Bik) 和 撤销 在 时 间 上 相 重 着 。 也 就 是 说 ， 这 二 者 在 时 间 上 必须 加 以 “ 串 行 化 ”。 这 样 ， 如 
果 插 口 的 撤销 在 前 ， 那 就 让 撤销 的 过 程 先 完成 ， 而 对 sock 的 使 用 则 就 此 打住 。 反 之 ， 如 朵 对 
sock 结构 的 使 用 在 前 ， 邦 就 让 使 用 的 过 程 先 完成 ， 然 后 表 来 撤销 ， 因 为 在 撤销 的 过 程 中 可 能 
需 此 对 使 用 的 后 果 (例如 链 入 到 receive, queue 队列 中 的 报 文 》 加 以 善后 处 理 。 为 此 日 的 ， 内 
Bue BT wow oe / 解锁 操作 ， 即 unix_state_rlock( )/unix_state_runlock( ) 和 
unix_state_wlock( )/unix_state_wunlock( ). 24 :个 进程 要 读 取 sock 结构 中 的 状态 信息 《特别 
是 dead) 时 ， 要 先 调用 unix_state_rlock( ) 加 锁 。 这 样 ， 如 果 另 一 个 进程 正 想 要 改变 sock 结构 
中 的 状态 信息 (例如 想 要 把 dead 变 成 1)， 就 要 在 一 个 循环 中 〈 并 不 睡眠 !) 等待 解锁 后 才能 
继续 。 反 过 来 ,如果 一 个 进程 要 改变 sock 结构 中 的 状态 信息 ， 则 要 先 通过 unix_state_wlock( ) 
加 锁 。 这 样 ， 想 要 读 的 进程 就 会 在 一 个 循环 中 等 待 解锁 。 这 里 unix state rlock( ) 和 和 
unix state. wlock( ) 是 互 锁 的 ， 如 果 unix_state_rlock( ) 先 成 功 了 ， 那 么 调用 unix_state_wlock( ) 
的 进程 就 会 在 这 个 函数 中 循环 等 待 CATLADY spinlock)， 扩 之 亦 然 。 

以 上 这 些 措施 防止 了 前 述 问 题 的 发 生 。 在 unix_stream_connect( ) 的 代码 中 ， 读 者 可 以 看 到 在 检查 
other-»dead 之 前 先 调 用 了 unix state rlock( )。 如 果 此 时 server 方 进 程 正在 撤销 该 插口 〈 及 其 sock 数据 
结构 ) 的 过 程 中 ， 并 且 赶 在 前 面 调用 了 unix state wlock( )， 则 当前 进程 就 会 在 unix_state_rlock( ) f/f 
环 等 待 ， 直 至 撤销 sock 数据 结构 的 操作 完成 。 但 是 此 时 由 于 sock 结构 中 的 refent 计数 伞 少 为 2《 因 为 
当前 进程 在 从 杂凑 表 unix, socket. table 的 队列 中 找到 这 个 结构 时 已 经 递增 了 这 个 计数 )， 所 以 server Jj 
进程 不 会 把 sock 结构 释放 。 如 果 当 前 进程 检测 到 other->dead 非 0， 就 知道 这 个 插口 实际 上 已 经 不 存在 
了 。 所 以 -方面 把 锁 打 开 ， -方面 调用 sock_put( ) 将 其 recfnt 计数 减 1。 如 果 减 1 以 后 refent 变 成 了 0， 
就 担负 起 释放 这 个 数据 结构 的 责任 。 人 然后， 就 转 同 标号 restart 处 ， 看 看 杂凑 表 的 队列 中 是 否 还 和 相同 
地 址 的 其 他 sock 数据 结构 。 当 然 ， 通 常会 因为 找 不 到 而 使 本 次 连接 请 求 天 折 〈 见 897 410. 

过 了 这 一 关 ， 进 而 要 检查 日 标 插口 的 状态 。 只 有 处 于 TCP_LISTEN 状态 的 插口 才 允 许 接 受 连 接 请 
X. MERE, XX server 方 进程 是 否 已 经 调用 了 accept( ) 或 者 正在 accept( ) 中 睡眠 等 竺 连接 请 求 尤 关 。 

在 server 插口 的 sock 结构 中 已 经 准备 好 了 容纳 连接 请 求 报 文 的 队列 。 不 过 ， 这 个 队列 的 长 度 是 有 
限制 的 ， 在 sys_listen( ) 中 已 经 设置 好 了 这 个 队列 的 最 大 长 度 。 当 队列 长 度 趋 过 这 个 最 人 长 度 时 ， 跳 再 
不 能 把 新 的 连接 请 求 链 入 到 队列 中 了 。 此 时 client 方 进程 根据 预定 的 等 待 时 间 决 定 是 立即 出 错 返 同 或 征 
睡眠 等 待 。 如 果 决 定 睡 眠 等 待 ， 就 在 918 行 调用 unix_wait_for_peer( YE ATEWR, Caf_unix.c): 


[sys socketcall( ) > sys connect( ) > unix. stream. connect( ) > unix wait for peer( )] 
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830 static long unix wait for peer (unix socket *other, long timeo) 


831 { 

832 int sched: 

833 DECLARE WAITQUEUE (wait, current); 

834 

835 . set current state(TASK INTERRUPTIBLE) ; 

836 add wait queue exclusive(&other-^protinfo.af unix.peer wait, &wait); 
837 

838 sched = (!other—>dead && 

839 ! Cother-^shutdown&RCV SHUTDOWN) && 

840 skb queue len(&other-^receive queue) > other->max ack backlog); 
841 

842 unix_state_runlock (other) ; 

843 

844 if (sched) 

845 timeo = schedule_timeout (timeo) ; 

846 

847 ___set_current_state (TASK RUNNING) ; 

848 remove_wait_queue (fother~>protinfo, af_unix. peer_wait, &wait); 

849 return timeo; 

850  ] 


与 前 一 节 中 server 方 在 wait, for packet( ) 中 睡眠 等 待 相似 , 这 里 也 是 在 当前 进程 的 系统 空间 堆栈 上 
分 配 一 个 wait queue t 数据 结构 , 将 其 挂 入 目标 插口 的 peer. wait 队列 ， 然 后 就 通过 schedule timeout( ) 
进入 定时 的 睡 曝 ， 醒 来 时 再 从 该 队 麟 中 脱 链 。 在 unix accept( ) 的 代码 中 我 们 看 到 ， 当 server 方 进程 从 
队列 中 接收 了 一 个 连接 请 求 ， 从 而 使 队列 长 度 有 所 下 降 时 ， 就 要 唤醒 一 个 〔〈 如 果 有 的 话 ) 正 等 待 着 要 
将 连接 请 求 挂 入 该 队列 的 进程 。 当 进程 被 唤醒 而 从 unix wait for peer( ) 中 返回 时 ， 要 通过 sock_put( ) 
BM ADO, SMART A ARE TP SM. WORE RMR, HAT RAM RA: 
古 则 就 转 问 到 标号 restart 处 ， 从 杂 凌 表 中 的 队列 重新 开始 〈 见 924 行 )， 因 为 情况 可 能 已 经 改变 了 。 

为 什么 这 里 与 前 一 节 中 不 同 ， 在 接收 到 了 信号 侧 被 唤 柄 时 要 提前 结束 本 次 系统 调用 呢 ? 我 们 不 妨 
看 看 这 里 等 待 的 是 什么 。 如 前 所 述 ， 这 里 等 待 的 是 server 方 的 报 文 队列 中 出 现 空间 而 使 报 文 得 以 投递 ， 
中 是 那 并 不 意味 着 操 作 的 完成 ， 本 次 系统 调用 要 到 连接 请 求 被 接受 时 才 会 完成 。 显 然 ， 那 并 不 是 在 一 
个 有 限 的 、 可 以 预测 的 短 时 间 内 能 够 完成 的 ， 所 以 只 好 使 系统 调用 提前 结束 ， 先 来 处 理 已 经 到 达 的 信 
5. 

过 了 这 一 关 ， 目 标 插口 ， 即 server 插口 “ 方 已 经 没有 问题 了 ， 但 是 client 播 口 自己 这 一 方 呢 ? RAT 
继续 往 上 下 看 函数 unix_stream_connect( ) 的 代码 Caf_unix.c). 


[sys socketcall( ) > sys connect( ) > unix, stream. connect( )] 


921 /* Latch our state. 

928 

929 Tt is tricky place. We need to grab write lock and cannot 
930 drop lock on peer. It is dangerous because deadlock is 
931 possible. Connect to self case and simultaneous 

932 attempt to connect are eliminated by checking socket 
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933 state. other is TCP_LISTEN, if sk is TCP_LISTEN we 
934 check this before attempt to grab lock. 
935 

936 Well, and we have to recheck the state after socket locked. 
937 */ 

938 st = sk-?state; 

939 

940 switch (st) { 

941 case TCP CLOSE: 

942 /* This is ok... continue with connect */ 
943 break; 

944 case TCP ESTABLISHED: 

945 /* Socket is already connected */ 

946 err = -EISCONN; 

947 goto out unlock; 

948 default: 

949 err = -EINVAL; 

950 goto out unlock; 

951 } 

952 

953 unix state wlock (sk) ; 

954 

955 if (sk->state != st) | 

956 unix state wunlock (sk); 

957 unix state runlock (other); 

958 sock put (other) ; 

959 goto restart; 

960 } 

961 


代码 中 940 行 的 switch 语句 对 client 方 插口 的 状态 进行 检查 ， 看 看 是 否 处 于 TCP_CLOSE 状态 。 
读者 也 许 要 问 ， 这 个 检查 为 什么 不 放 在 sys_connect( ) 或 者 unix_stream_connect( ) 一 开关 的 地 方 妮 ?” 那 
样 如 果 状 态 不 对 的 话 开始 就 可 以 回头 了 ， 岂 不 是 可 以 省 去 这 么 多 麻烦 ?答案 是 ， 即 使 在 开始 时 就 
作 了 这 种 检查 ， 现 在 也 还 得 上 髓 检查 ， 因 为 情况 可 能 中 途 有 改变 。 要 知道 ， 可 能 会 有 多 个 进程 (创建 了 
插口 的 进程 可 能 会 fork( ) 出 一 批 子 进 程 》 并 发 地 对 同一 个 质 口 发 动 操作 ， 从 而 让 为 个 进程 抢先 。 
另 一 方面 ， 个 client 方 的 进程 也 不 能 一 开始 就 把 sock 结构 锁 住 不 放 ， 央 为 在 unix_stream_connect( ) 
中 可 能 会 进入 睡眠 《省 则 就 有 可 能 导致 续 锁 了 ， 请 读者 想 想 为 什么 ? ) 所 以 ， 不 管 怎样 ， 在 这 个 地 方 
总 是 需要 对 client 插口 的 状态 进行 检查 的 。 通 过 了 检查 以 后 ， 就 要 改变 其 状态 了 ， 所 以 放 用 
unix state wlock( ) 将 其 锁 往 《 见 952 行 )。 可 是 在 加 锁 成 功 以 后 还 得 再 检查 “次 ( 见 955 行 )! 为 什么 
WE? 须知 unix_state_wlock( ) 中 可 能 隐藏 着 一 个 循环 等 待 ， 而 引起 循环 等 待 的 原因 是 男 一 个 进程 〈 在 六 
一 个 CPU 上 运行 ) 抢先 把 它 锁 住 了 ， 所 以 在 循环 等 待 的 前 后 这 个 sock 结构 的 状态 可 能 就 不 一 样 了 。 
这 一 段 代 码 〈938 一 960 行 ， 直 到 结束 》 看 似 平常 ， 实 际 上 却 极 有 讲究 ， 对 十 进程 间 的 同步 与 占 斥 是 一 
段 很 好 的 教材 ， 建 议 读 者 把 它 读 透 ， 并 且 多 问 几 个 为 什么 ， 上 髓 自己 来 解答 。 

接着 ， 就 要 来 设置 在 关 的 数据 结构 了 (af_unix.c): 
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[sys_socketcall( ) > sys connect( ) > unix stream connect( )] 


062 /* The way is open! Fastly set all the necessary fields... */ 
963 

964 sock_hold (sk) ; 

965 unix peer (newsk) =sk; 

966 newsk—>state=TCP_ESTABLISHED; 

967 newsk-»type-SOCK STREAM; 

068 newsk—>peercred. pid = current »pid; 

969 newsk-»peercred. uid = current—>euid; 

970 newsk—>peercred. gid = current-?egid; 

971 newsk->sleep = &newsk-—>protinfo. af unix. peer wait; 

972 

973 /* copy address information from listening to new sock*/ 

974 if (other->protinfo. af unix. addr) 

975 { 

976 atomic inc (&other->protinfo, af unix. addr->refent) ， 

977 newsk—->protinfo. af unix. addr=other >protinfo. af_unix. addr; 
978 } 

979 if (other-^protinfo.af unix.dentry) | 

980 newsk-^protinfo.af unix.dentry = dget (other->protinfo. af unix. dentry) ; 
981 newsk-^protinfo.af unix.mnt- mntget (other->protinfo. af unix.mnt); 
982 } 

983 

984 /* Set credentials */ 

985 sk->peercred = other-—>peercred; 

986 

987 sock hold(newsk); 

988 unix peer (sk)-newsk: 

989 sock-»state-SS CONNECTED; 

990 sk-^statc-TCP ESTABLISHED; 

99i 

992 unix state wunlock (sk); 

993 


这 里 涉及 的 数据 结构 和 这么 儿 个 ， 指 针 sock 指向 client 播 站 的 socket 结构 ， 指 人 sk 指向 client Hf 
OR) sock 结构 ， 指 针 other 18 [3] server 插口 的 socket 结构 ， 册 指针 newsk 则 指向 一 个 新 的 sock 结构 。 
这 个 新 的 sock 结构 准备 传 给 server 方 进程 ,以 供 在 accept( ) 小 新 创建 的 插口 配对 使 用 。 这 里 的 unix_peer() 
是 个 宏 操作 ， 其 定义 在 文 件 af unie F: 


140 define unix peer(sk) ((sk)->pair) 


所 以 ， 经 过 这 段 程序 以 后 ，newsk->pair 指 问 sk， 而 sk->pair 指向 newsk 《这 就 越 Unix 域 中 插口 间 
连接 的 主体 )。 现 在 二 者 已 经 挂 上 了 钩 ， 建 立 起 连接 ， 所 缺少 的 环节 就 是 让 newsk HR server 方 进程 在 
accept( ) PR gl se ag4 LE bay. 5-7 p]. cient 方 插口 的 sock 结构 的 状态 也 变 成 了 
TCP_ESTABLISHED。 这 样 ， 如 果 有 为 一 个 进程 也 要 在 这 个 插 岂 上 进行 conect. SE TE E TR 
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944 行 受 到 阻拦 而 失败 返回 。 


代码 中 980 行 的 dget( ) 实 际 上 只 是 递增 dentry 结构 中 的 共享 计数 d. count, 我 们 已 经 在 “文件 系统 ” 


一 章 中 看 到 过 了 。981 行 的 mntget( ) 也 类 似 。 


我 们 尚未 将 连接 请 求 报 文 ， 即 sk buff 结构 挂 入 server 7j sock 结构 的 receive_queue 队列 中 《代码 


中 的 指针 skb 指向 这 个 结构 )， 下 面 就 要 来 做 这 件 事 了 。 继 续 在 af_unix.c 中 往 下 看 : 


[sys_socketcall( ) > sys connect( ) > unix stream connect( )] 


994 

995 

996 

997 

998 

999 
1000 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 
1010 
1011 
1012 
1013 


/* take ten and and send info to listening sock */ 
skb queue tail(&other-^receive queue, skb) ; 
other->data_ ready(other, 0); 

sock, put (other) ; 

return 0; 


out unlock: 


out: 


} 


if (other) 
unix. state_runlock (other) ; 


if (skb) 
kfree skb(skb); 
if (newsk) 
unix release sock(newsk, 0); 
if (other) 
sock put(other); 
return err; 


这 里 skb queue tail( ) 是 个 inline 函数， 其 代 公 在 include/linux/skbuff.h 中 : 


[sys_socketcall( ) > sys_connect( ) > unix_stream_connect( ) > skb_queue_tail( )] 


463 
464 
465 
466 
467 
468 
469 
470 
AT] 
472 
473 
474 
475 


/*x* 


X 0 X 关 x x* X X * X 


* 
ins 


skb queue tail - queue a buffer at the list tail 
@list: list to use 
@newsk: buffer to queue 


Queue a buffer at the tail of the list. This function takes the 
list lock and can be used safely with other locking &sk buff functions 


safely. 


À buffer cannot be placed on two lists at the same time. 


static inline void skb queue tail (struct sk buff head *list, struct sk buff *newsk) 
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476 { 

477 unsigned long flags; 

478 

479 spin_lock_irqsave(&list->lock, flags); 

480 __skb queue tail (list, newsk); 

481 spin unlock irqrestore(&list-»5lock, flags); 
482  ] 


[sys socketcall( ) > sys connect( ) > unix stream connect( ) > skb queue tail( ) >  skb queue. tail( )] 


449 static inline void | skb queue tail(struct sk buff head *list, 
struct sk buff *newsk) 


450 | 

45] struct sk buff *prev, *next; 
452 

453 newsk-»list = list; 

454 list->qlent+: 

455 next = (struct sk buff *) list; 
456 prev = next->prev; 

457 newsk->next = next; 

458 newsk->prev = prev; 

459 next->prev = newsk; 

460 prev—>next = newsk; 

461 } 


最 后 ， 在 sock 结构 中 有 个 函数 指针 data ready, 26 °44§3—SRIC 《无论 控 制 报 文 或 是 数据 报 文 ) 
链 入 到 个 sock 结构 的 receive, queue 队列 中 以 后 , 都 要 通过 这 个 函数 指针 来 调用 一 个 预先 设置 好 的 函 
7k (997 行 )， 这 种 情况 常 称 为 “call back”。 在 创建 插口 时 所 调用 的 嚼 数 sock_init_data( ) 里 ， 函 数 指针 
data ready 被 设置 成 指 站 sock_def_readable( )， 所 以 这 里 的 “call back” 就 是 对 这 个 函数 的 调用 ， 其 代 
码 在 net/core/sock.c P: 


[sys_socketcali( ) > sys connect( ) > unix stream connect( ) > sock_def_readable( )] 


1090 void sock def readable(struct sock *sk, int len) 


1091 { 

1092 read lock(&sk-»callback lock); 

1093 if (sk sleep && waitqueue_aclive(sk—->sleep) ) 
1094 wake up interruptible(sk—>sleep) ; 

1095 sk wake async(sk, 1, POLL IN); 

1096 read unlock(&sk-^callback lock); 

1097 } 


Xt FIN Se BUN SHA, GEAR BAM TSK, HEURE EURBERISEIETEBERK D AS a E 
请 求 的 server 方 进程 (1094 行 )。 但 是 ， 另 一 半 ， 也 就 是 sock wake async( )， 是 干什么 用 的 昵 ? 让 我 
们 回顾 一 下 server 方 进程 是 怎样 通过 accept( ) 来 接受 连接 请 求 的 。 大 家 知道 ，accept( ) 是 一 个 server 插 
口 接受 连接 请 求 的 惟 :途径 ，server 搬 蝇 是 不 能 主动 紫 求 连接 的 。 同 时 ，accept( ) 的 操作 从 本 质 上 说 是 
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“同步 ”的 ， 如 果 调 用 accept( ) 时 尚 无 连接 请 求 到 米 ， 就 要 睡 皮 等 待 。 减 然 ，server 方 的 进行 可 以 通过 
O NONBLOCK 标志 让 accept() 在 没有 连接 请 求 时 立即 返回 ， 但 这 样 一 来 ，server 方 进程 就 只 好 循 坏 地 
或 者 定期 地 调用 accep ) 来 测试 是 和 否 有 连接 请 求 到 来 。 再 考虑 有 时 候 server 方 进程 此 同时 照看 好 几 个 
server 插口 的 情况 ， 这 时 候 server 方 进程 就 只 好 将 O_NONBLOCK 标志 设 成 1 来 “ 轮 询 ”各 个 server 
插口 了 了 。 但 是 ， 不 管 是 睡眠 也 好 ， 或 是 轮 询 也 好 ，server 进程 在 此 期 间 就 不 能 做 别 的 事情 了 。 上 所 以 ， 
O_NONBLOCK 标志 并 不 改变 accept( ) 的 同步 本 质 。 

那么 ， 有 没有 办 法 “异步 ”地 等 待 连接 昵 ? 就 是 说 使 server 方 进程 趾 以 十 点 别 的 ， 到 有 连接 请 求 

到 来 时 就 通知 它 ， 让 忆 到 那 时 候 再 来 调用 accept( )。 答案 是 肯定 的 。 我 们 以 前 讲 过 , 硬件 (包括 处 理 哗 ) 
层次 上 的 异步 通信 手段 起 中 断 ， 而 软件 层次 上 的 异步 通信 于 段 是 “ 信 与 ”。 显然， 我们 在 这 里 也 可 以 利 
用 信号 机 制 。 简 而 音 之 ， 就 是 让 内 核 在 有 连接 请 求 到 米 时 研 问 server 方 进 程 友 “Ma's, M server 方 
进程 则 半 | 时 可 以 处 理 别 的 事情 ， 只 是 在 接收 到 有 关 信 与 时 就 来 调用 accept( )。 事 实 | ， 并 不 是 只 有 插口 
的 连接 才 会 有 这 样 的 此 求 ， 异 步 操作 已 经 成 为 文件 系统 操作 的 “个 组 成 部 分 。 在 文件 拧 作 ioc ) 15€ 
设置 了 -条 命令 FIOASYNC， 让 有 关 进 程 《 必 须 是 文件 的 主人 ) 可 以 通过 这 条 命令 向 一 个 文件 挂 上 号 ， 
计 它 在 基 种 条 件 得 到 满足 时 就 向 该 进程 发 送 一 :个 信和 与 。 为 了 这 个 目的 ， 在 插口 的 socket 结构 中 设置 了 
一 个 队列 fasync_list。 当 server 方 进程 希望 异步 地 等 待 连接 时 ， 就 通过 iocth( ) 的 FIOASYNC 命令 ( 插 
口 也 是 一 个 已 打开 文件 ) 将 一 个 fasync_struct 结构 挂 入 到 这 个 队列 中 。 另 一 方面 ， 我 们 以 前 也 讲 过 ， 
代表 着 一 个 插口 的 file 结构 中 有 个 指针 fop， 指 向 “个 file operations 结构 socket_file_ops。 这 个 结构 
中 的 指针 fasyne 指向 函数 sock_fasync( )， 当 server 方 进程 通过 ioctl( ) 发 出 FIOASYNC 命令 时 ， mA 
行 这 个 了 消 数 米 完成 上 述 将 一 个 fasync_struct 数据 结构 挂 入 人 到 这 个 队列 中 的 操作 。 

所 以 ， 在 “call back” 函 数 sock_def_readable( ) 巾 的 男 一 件 事 就 是 ， 通过 sk_wake_async( ) 给 可 能 山 
£f. [A FI fasync_list 中 挂 上 号 的 进程 发 信号 ， 其 代 人 得 在 include/net/sock.h P: 


[sys_socketcall( ) > sys_connect( ) > unix_stream_connect( ) > sock_def_readable( ) > sk wake async( )] 


1219 static inline void sk wake async(struct sock *sk, int how, int band) 
1220 í 


122] if (sk-^socket && sk >socket->fasyne list) 
1222 sock wake async(sk-^socket, how, band); 
1223 } 


[sys socketcall( ) > sys_connect( ) > unix stream connect( ) > sock_def_readable( ) > sk wake async( ) > 
sock_wake_async( )] 


786 / This function may be called only under socket lock or callback lock */ 
787 


788 int sock wake async (struct socket *sock, int how, int band) 
788 d 

790 if (!sock || !sock—^fasync list) 

191 return l; 

192 switch (how) 

193 { 

794 case 1: 

195 
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if (test bit(SOCK ASYNC WAITDATA，&sock->flags) ) 
break; 
goto call kill; 
case 2: 
if (!test and clear bit(SOCK ASYNC NOSPACE, &sock->flags)) 
break; 
/* fall through */ 
case Q: 
call kill: 
— kill fasync(sock-^fasync list, SIGIO, band); 
break; 
case 3: 
__kill_fasyne(sock—>fasyne list, STGURG, band); 
} 


return 0; 


这 里 调用 时 的 参数 how 为 1, band 为 POLL_IN。 我 们 把 这 段 代 码 留 给 读者 自己 阅读 。 其 中 函数 
__kill_fasync( ) 的 代码 在 fs/fentl.c 中 ， 它 扫描 整个 fasync list 队列 ， 和 疝 每 个 挂 上 叶 的 进程 发 出 信和 号 。 


[sys_socketcall( ) > sys connect( ) > unix stream connect( ) > sock_def_readable( ) > sk wake async() 
»sOck wake async()» kill fasync( )] 


482 
483 
484 
485 
486 
481 
488 
489 
490 
491 
492 
493 
494 
405 
496 
497 
498 
499 


void | kill fasync(struct fasync struct *fa, int sig, int band) 


| 


} 


while (fa) { 
struct fown struct * Town; 
if (fa->magic !- FASYNC MAGIC) { 
printk(KERN ERR ^kill fasync: bad magic number in ” 
"fasync struct!Wn^); 
return; 

} 

fown = &fa-^fa lile-»f owner; 

/* Don’ t send SIGURG to processes which have not set a 
queued signum: SIGURG has its own default signalling 
mechanism. */ 

if (fown->pid && '(sig == SIGURG && fown->signum == 0)) 

send sigio(fown, fa->fa fd, band); 

fa = fa »fa next; 


不 言 而 喻 ， 如 果 要 异步 地 接受 连接 请 求 ， 则 server 方 的 进程 必须 事先 设置 好 相应 的 信号 处 理 程序 。 
至 此 ,sys_connect( ) 已 经 完成 了 它 的 任务 ( 除 sockfd_put( ) 以 外 )。 如果 server 方 进程 已 经 在 accept) 


中 等 待 ， 则 唤醒 以 后 就 会 来 补 上 缺失 的 一 环 ， 就 是 使 新 创建 的 socket 结构 与 通过 sk_buff 结构 传 过 来 的 
sock HEEE CA unix_accept( ) 代 码 中 的 1068 Ír, EEA HEHHEE newsock 指向 由 accept( ) 新 创建 
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的 socket 结构 ， 而 指针 tsk 指向 由 sys_connect( ) 新 创建 的 sock 结构 )。 这 样 ， 就 完成 了 两 个 unix 域 插 
门 之 间 的 连接 。 如 果 server 方 进程 尚未 调用 accept( )， 则 当 它 调用 accept( ) 时 连接 请 求 已 经 在 server ffi 
口 的 receive. queue 队列 中 等 待 ， 所 以 雹 需 睡眠 等 待 就 可 以 完成 这 种 连接 。 

再 来 看 “无 连接 ”模式 的 connect( ) 操 作 。 对 于 Unix 域 “无 连接 ”模式 的 插口 ， 所 用 的 proto ops 
数据 结构 为 unix_dgram_ops， 而 相应 的 函数 指针 connect 则 指向 unix_dgram_connect( )。 

以 前 讲 过 , 既然 是 “无 连接 ”模式 的 插 凯 ,本 来 就 没有 “建立 连接 ”这 说。 之 所以 也 有 个 connect ) 
操作 ， 只 足 要 利用 它 来 将 木 来 每 次 发 送 报 文 时 都 要 重复 的 一 些 操作 集中 在 一 起 ， 以 避免 浪费 。 有 些 什 
么 “等 次 发 送 报 文 时 都 要 重复 的 操作 ” 呢 ? 

(每 次 孝 要 从 用 户 空 间 把 对 方 的 插口 地 址 拷贝 到 系统 空间 中 。 

(2) 在 网 络 坏 境 下 ， 遂 常 需要 根据 对 方 的 地 址 从 路 径 表 中 次 得 应 该 使 用 的 网 络 接 门 ， 以 及 可 能 再 

要 的 在 网 络 层 和 / 或 链 路 层 上 使 用 的 地 址 。 并 且 常 常 还 昌 进 行 从 符号 地 址 到 网 络 地 址 数值 的 
转换 。 

(3) 在 Unix 域 中 ， 则 通常 需要 根据 对 方 的 插口 地 址 从 文件 系统 中 打开 相应 的 文件 《节点 )， 然 后 

用 索引 节点 的 号 但 在 杂凑 表 的 某 个 队列 中 找到 对 方 的 sock 数据 结构 。 

就 每 一 次 报 文 发 送 来 赔 ， 这 些 开销 不 能 算 大 。 但 是 ， 如 果 发 送 成 千 上 万 个 报 文 到 同一 个 日 标 播 日， 
这 总 共 的 开销 就 不 能 小 看 了 。 下 面 ， 我 们 就 来 看 看 ，sys_connect( ) 对 于 Unix 域 “ 尤 连接 ”模式 的 插口 
到 底 和 做 了 些 什么 。 函 数 unxi_dgram_connect( ) 的 代码 在 net/unix/af_unix.c 中 : 


[sys_socketcall( ) > sys. connect( ) > unix. dgram connect( )] 


770 static int unix dgram connect (struct socket *sock, struct sockaddr *addr, 


771 int alen, int flags) 

72. { 

773 struct sock *sk = sock->sk; 

774 struct sockaddr un *sunaddr=(struct sockaddr un*) addr; 
175 struct sock *other; 

776 unsigned hash; 

TOT int err; 

778 

779 if (addr->sa_family !- AF UNSPRC) | 

780 err = unix_mkname(sunaddr, alen, &hash) ; 

181 if (err < 0) 

782 goto out; 

783 alen = err; 

784 

785 if (sock >passered && !sk->protinfo. af_unix. addr && 
786 (err = unix autobind(sock)) !- Q) 

787 goto out; 

788 

789 other-unix find other (sunaddr, alen, sock->type, hash, &err); 
790 if (lother) 

191 goto out; 

792 

793 unix state wlock (sk); 
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794 
195 err = ~EPERM: 
796 if (tunix may send(sk, other) ) 
797 goto out unlock; 
798 } else { 
799 /* 
800 * 1003. 1g breaking connected state with AF UNSPEC 
801 */ 
802 other = NULL; 
803 unix state wlock (sk); 
804 } 
805 
806 /* 
807 * Tf it was connected, reconnect. 
808 */ 
809 if (unix peer(sk)) f 
810 struct sock *old peer = unix peer(sk); 
811 unix peer(sk)-other; 
812 unix state wunlock (sk); 
813 
814 if (other != old peer) 
.815 unix dgram disconnected(sk, old peer); 
816 sock put(old peer); 
817 } else { 
818 unix peer (sk)=other; 
819 unix_state_wunlock (sk) ; 
820 } 
821 return 0; 
822 
823 out unlock: 
824 unix state wunlock (sk); 
825 sock put (other); 
826 out: 
821 return err; 
828 ] 


BU DESEE "EET RANO H accept ) 和 connect( ) 操 作 的 代码 ， 对 于 这 里 所 调用 或 引用 
的 大 部 分 裔 数 和 宏 定 义 都 已 经 熟悉 了 。 事 实 上 ， 读 者 在 前 几 节 中 尚未 见 旬 过 的 函数 只 有 一 个 ， 那 就 是 
unix_may_send( )， 其 代码 也 在 af unix.c P: 


[sys_socketcall( ) > sys_connect( ) > unix dgram connect( ) > unix_may_send( )] 


140 #define unix peer(sk) ((sk)->pair) 


141 

142 extern | inline int unix our peer(unix socket *sk, unix socket *osk) 
143 { 

{44 return unix peer (osk) == sk; 
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145  ] 
146 
147 extern | inline — int unix may send(unix socket *sk, unix socket *osk) 
148 { 
149 return (unix peer(osk) == NULL || unix our peer(sk, osk)); 
150 } 
也 就 是 说 ,unix_may_send( ) 检 查 对 方 插口 的 sock 结构 中 的 指针 pair, rd eX 8 CLER INI RT sock 


结构 ， 如 果 是 ， 就 进而 检查 它 所 指向 的 是 否 正 是 我 方 插 口 的 sock 结构 。 如 果 对 方 sock 结构 小 的 指针 
pair 已 经 指向 了 另 -个 插口 的 sock 结构 ， 那 就 只 好 就 此 打住 了 。 这 种 情况 下 ，unix_dgram_connect( ) 
返回 出 错 代 码 一 EPERM， 表 示 不 人 允许。 也 就 是 说 ， 对 方 插 口 必须 尚 木 连接 到 别 的 插 门 ， 改 变 对 方 所 口 
与 其 他 插口 的 连接 是 不 允许 的 。 可 是 ， 如 果 我 方 播 口 原来 已 经 有 了 “连接 ” WEAR ERNE 
有 的 连接 ( 见 809—816 行 )， 而 不 需要 特别 将 原 有 的 连接 拓 除 。 这 里 所 请 “连接 ”只 不 过 是 让 我 方 sock 
结构 中 的 指针 pair 指向 对 方 的 sock 结构 。 注 意 ， 这 个 “连接 ”只 是 单 向 的 ， 对 方 插口 的 数据 结构 丝 坚 
不 受 影响 ， 对 方 进程 有 完全 的 自由 使 其 插 凯 指向 (或 日 “连接 到 ”) HL. UES, “FER” 插口 
也 不 像 “ 有 连接 ”插口 那样 有 个 “状态 机 ”， 所 以 “无 连接 ”通信 有 时 也 称 作 “无 状态 ” 遂 信 ; 对 方 捅 
DETSE “有 连接 ”模式 的 server 插口 那样 生 下 :个 “和 蛋 ” 来 。 正 因为 这 样 ，unix_dgram_connect( ) 
的 代码 比 unix_stream_connect( ) 的 代码 要 简单 多 了 。 





77 报 文 的 接收 与 发 送 


插口 上 的 报 文 接收 与 发 送 有 两 个 程序 设计 界面 。 第 一 个 界面 是 为 拓 口 专 设 的 ， 从 用 户 程 序 的 角度 
来 看 就 是 三 对 libe 库 函 数 ， 即 recv( /send(). recvfrom( )/sendto( ) 以 及 recvmsg( )/sendmsg( )， 但 是 最 终 
都 归结 于 :个 统一 的 系统 调用 ， 在 内 核 中 的 入 口 为 sys_socketcall( )。 不 过 ， 除 特殊 的 应 用 外 《后 而 会 
讲 到 )， 这 些 库 函 数 并 不 是 非得 成 对 地 使 用 。 也 就 是 说 ， 原 则 上 双方 都 可 以 自由 地 选择 使 用 一 青 之 ， 
但 是 send( ) 只 能 在 已 经 通过 connect( ) 建 六 了 连接 ， 或 确定 了 日 标 插口 以 后 才 可 使 用 。 另 一 方面 ， 从 语 
义 的 角度 来 说 ， 只 要 已 经 使 用 了 connect( ) 就 应 该 用 send( ) 而 不 是 sendto( )， 因 为 既然 日 标 已 经 傅 定 了 ， 
就 林 应 该 再 在 发 送 时 规定 晶 标 了 。 人 不过， 尽管 如 此 ， 用 sendto( ) 也 还 是 可 以 的 ， 内 不 过 要 把 调用 参数 
中 的 对 方 地 址 〈 指 针 ) 设 成 NULL， 把 地 址 长 度 设 成 0。 读 者 在 前 面 已 经 看 到 过 ， 仕 内 核 中 sys recv() 
实际 上 就 是 通过 sys_recvfrom( ) 实 现 的 ， 而 sys_send( ) 则 是 通过 sys_sendto( ) 实 现 的 ， 巨 韭 就 是 把 地 址 
指针 设 成 NULL， 把 地 址 长 度 设 成 0 市 已 。 此 外 ， 下 面 读者 述 会 看 到 ， 实 际 上 三 个 用 于 接收 的 函数 最 
后 全 都 通过 sock recvmsg( ) 来 接收 报 文 ， 而 于 个 用 于 发 送 的 图 数 则 全 都 是 通过 sock sendmsg( KAIS 
报 文 的 。 

第 二 个 界面 是 通过 常规 的 文件 操作 read( ) 和 write( ) 这 两 对 系统 调 几 来 进行 的 《还 有 readv( ) 和 
writev( )， 与 recvmsg( ) 和 sendmsg( ) 相 似 )。 读 者 个 妨 回 过 去 看 看 前 而 的 联系 图 “图 7.1)。 从 当前 进程 
的 task. struct 结构 开始 ， 通 过 插口 的 打开 文件 号 找 公 相 应 的 file 结构 ， 再 顺 着 file 结构 中 的 指针 f_op， 
就 可 以 找到 这 个 “文件 ”的 file_operations 结构 socket_file_ops. 这 就 是 文件 操作 的 跳 园 表 , 是 仕 socket.c 
中 定义 的 : 


114 static struct file operations socket file ops - { 
115 llseek: sock lseek, 
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116 read: sock read, 
lt write: sock write, 
118 poli: sock poll, 
119 ioctl: sock ioctl, 
120 mmap: sock mmap, 
121 open: sock no_open, /* special open code to disallow open via /proc */ 
122 release: sock close, 
123 fasync: sock fasync, 
124 readv: sock readv, 
125 writev: sock_writev 
126 1}; 


AIDS, FBTR BH sock read( ) 和 sock_write( )， 这 时 个 图 数 的 代码 都 在 net/socket.c 中 。 这 
里 要 提醒 一 下 ， 括 口 : -经 创建 就 已 经 打开 了 《〈 返 加 打开 文件 号 )， 并 没有 一 般 文件 那样 的 open RE, 
所 以 指针 open 指向 - 个 函数 sock_no_open( )。 

YR sock_write( ) 与 sys. sendto( ) 很 相似 ， 我 们 不 妨 比 较 一 下 sock_write( ) 和 sys_sendto( ) 的 代码 。 
KA sock write( ): 


[sys write( ) » sock write( )] 


571 /* 

STZ * Write data to a socket. We verify that the user area ubuf..ubuf*size-l 
573 * is readable by the user process. 

574 */ 

575 

576 static ssize t sock write(struct file *file, const char *ubuf, 
577 size t size, loff t *ppos) 

578 { 

579 struct socket *sock; 

580 struct msghdr msg; 

581 struct iovec iov; 

582 

583 if (ppos !- &file— f pos) 

584 return -ESPIPE; 

585 if (size--0) /* Match SYS5 behaviour */ 

586 return 0; 

581 

588 sock = socki lookup (file->t_dentry->d inode); 

589 

590 msg.msg name-NULL; 

591 msg.msg namelenz-0; 

592 mÁmsg.msg lov-&iov; 

593 msg.msg iovlen-l; 

594 msg.msg control-NULL; 

595 msg.msg controllen-0; 

596 msg. msg flags-!(file— ^f flags & O NONBLOCK) ? O : MSG DONTWAIT; 
597 if (sock-^type 7—7 SOCK SEQPACKET) 
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598 msg. msg flags |= MSG_EOR; 

599 iov. iov base= (void *)ubuf; 

600 iov. iov len-size; 

601 

602 return sock sendmsg(sock, &msg, size); 
603 } 


再 看 sys, sendto( ): 


[sys, socketcall( ) > sys sendto( )] 


1159 /* 

1160 * Send a datagram to a given address. We move the address into kernel 
1161 * space and check the user space data area is readable before invoking 
1162 * the protocol. 

1163 */ 

1164 

1165 asmlinkage long sys sendto(int fd, void * buff, size t len, unsigned flags, 
1166 struct sockaddr *addr, int addr len) 

167 f 

1168 struct socket *sock; 

1169 char address[MAX SOCK ADDR]; 

1170 int err; 

1171 struct msghdr msg; 

1172 struct iovec iov; 

1173 

1174 sock = sockfd lookup(fd, &err); 

1175 if (!sock) 

1176 goto out; 

1177 iov. iov base=buff; 

1178 iov. iov_len=len; 

1179 msg. msg_name=NULL; 

1180 msg.msg iov-&iov; 

1181 msg.msg iovlen-l; 

1182 msg.msg control-NULL; 

1183 msg.msg controllen-0; 

1184 msg.msg namelen-addr len; 

1185 if (addr) 

1186 { 

1187 err = move addr to kernel (addr, addr len, address); 
1188 if (err < 0) 

1189 goto out put; 

1190 msg.msg name-address; 

1191 } 

1192 if (sock->file->f flags & 0 NONBLOCK) 

1193 flags |= MSG_DONTWAIT; 

1194 msg.msg flags = flags; 
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1195 err = sock sendmsg(sock, &msg, len): 
1196 

1197 out put: 

1198 sockfd_put (sock) ; 

1199 out: 

1200 return err; 

1201 } 


可 见 二 省 几乎 是 一 样 的 ， 最 后 都 是 调用 sock_sendmsg( ) 来 完成 任务 。 同 样 的 相似 性 也 存在 于 
sock read( ) 和 sys recvmsg( ) 之 间 ， 并 且 二 者 都 通过 sock_recvmsg( ) 来 完成 任务 。 也 就 是 说 ， 两 个 界面 
土 的 这 些 肯 数 最 后 部 是 殊途同归 ， 都 归结 到 sock recvmsg( ) 和 sock_sendmsg( ) 两 个 函数 。 所 以 ， 两 个 
界 血 其 实 没有 多 人 人 区别。 不过， 从 语义 的 角度 来 说 ,一 般 对 “有 连接 ”插口 倾向 十 使 用 read( )/write( ), 
而 对 “无 连接 ”插口 则 通常 部 使 用 recvfrom( )/sendto( ) 等 函数 。 这 是 因为 在 “有 连接 ”模式 的 通信 中 将 
传递 的 数据 看 成 连续 的 “ 字 节 流 ” 而 不 保留 “ 报 文 ”的 边界 〈 所 以 其 类 型 称 为 SOCK_STREAM), 与 
文件 操作 的 语义 比较 贴近 。 反 之 ,“ 无 连接 ”模式 的 通信 和 则 是 “面向 报 文 ”的 ， 所 以 保留 报关 的 边界 。 

我 们 以 接收 方 为 例 进 一 步 说 明 这 两 种 模式 间 的 区 别 。 假 定 在 - -个 “无 连接 ”插口 的 receive_queue 
队列 中 已 经 有 两 个 报 文 在 等 待 读 取 ， 每 个 报 文 都 含有 200 字 节 的 数据 。 然 后 ， 接收 方 进程 通过 recv( ) 
来 接收 ， 缓 冲 区 的 大 小 为 150 字 和 。 由 于 缓冲 区 小 于 队列 中 第 一 个 报 文 的 大 小 ， 所 以 只 能 接收 150 个 


是 内 核 却 会 将 其 从 队列 中 脱 链 并 释放 ， 剩 余 的 SO 字 节 就 玉 弃 了 。 这 是 内 为 “无 连接 ” 模式 的 通信 是 以 
报 文 为 单位 ， 而 不 是 以 实际 报 文 中 的 字 节 为 单位 的 。 反 之 ， 如 果 缓 六 区 的 大 小 是 300 字 节 ， IRA t SA 
缓冲 区 大 于 第 一 个 报 文 的 实际 人 小 , 却 不 会 再 到 第 二 个 报 文中 去 读 取 一 部 分 , 以 填 满 缓冲 区 ， 所 以 recv( ) 
返回 200。 可 是 ， 如 果 插 吊 是 “有 连接 ”模式 的 ， 那 就 不 同 了 。 在 第 一 种 情况 中 ， 剩余 的 50 字 节 会 保 
留 下 来 供 下 一 次 继续 读 取 ， 调 在 第 种 情况 下 则 会 在 读 取 了 第 个 报 文中 的 200 字 节 之 后 再 到 第 二 个 
报 义 中 读 取 100 字 节 ， 而 将 第 二 个 报 文 中 剩余 的 100 字 季 贸 待 下 一 次 继续 读 取 ， 所 以 此 时 recv( yl [a] 
300。 当 然 ,“ 有 连接 ”和 “无 连接 ”两 种 通信 模式 的 区 别 过 不 止 于 此 。 但 是 ， 对 Unix 成 的 插 口 米 说 ， 
可 靠 性 的 问题 实际 上 并 不 存在 《因为 不 涉及 网 络 介质 )， 保 序 性 的 问题 也 不 存在 (办 为 不 涉 太 不 同 的 路 
径 )， 剩 下 的 就 是 途 接 的 建立 以 及 诸 义 上 的 这 种 多 草 了 。 从 用 户 程 序 设 计 的 角度 来 看 ， 后 者 实际 上 更 为 
于 要。 举例 来 说 ， 如 果 用 户 程序 未 经 建立 连接 就 试图 通过 一 个 “有 连接 ”插口 发 送信 以， IKA send( ) 
与 上 嗣 会 出 错 返回 ， 从 而 “开始 就 可 以 发 现 这 个 问题 。 然 而 ， 如 果 是 在 “无 连接 ” 插口 上 用 read( )3K 
接收 ， 并 且 在 程序 设计 中 误 以 为 接收 的 内 容 是 连续 的 字 节 流 ， 则 系统 调用 本 身 并 不 会 出 错 返 回 ， 可 是 
天 会 出 夫 一 些 似 乎 是 英明 其 妙 的 毛病 而 又 不 容易 找 介 原 央 。 上 反 过 来 ， 将 互相 独立 的 报 文 作为 连续 的 字 
节 流 来 接收 也 会 造成 问题 。 

住 深入 公 sock_recvmsg( ) 和 sock. sendmsg ) 的 代 倘 中 去 之 前 ， REMI BATT sys_sendto( ) 的 代码 
中 去 看 一 下 这 贞 个 函数 的 外 围 。 由 于 这 山 个 函数 要 适 启 上述 所 有 声 数 的 需要 ， 所 以 契 按 其 中 最 复杂 的 
sys_sendmsg( ) 和 sys recvmsg( ) 的 要 求 而 设计 的 。 因 此 ， 在 sys sendto( ) 中 要 先 使 用 传递 下 来 的 参数 ， 
组 装 起 一 个 “报头 ”， 即 msghdr 结构 ， 用 作 调 用 sock sendmsg( H LESH. HAEN 


include/linux/socket.h: 


27 /* 
28 * As we do 4. 4BSD message passing we use a 4. 4BSD message passing 
29 * system, not 4.3. Thus msg accrights(len) are now missing. They 
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* belong in an obscure libc emulation or the bin. 


*/ 

struct msghdr | 
void * msg name: /* Socket name */ 
int msg namelen; /* Length of name * / 
struct iovec * msg iov; /* Data blocks */ 
__kernel_size_t msg iovlen; /* Number of blocks */ 
void *msg control; /* Per protocol magic (eg BSD file 


descriptor passing) */ 
JA kernel size tmsg controllen; /* Length of cmsg list */ 





unsigned msg flags; 


/* 
POSIX 1003. lg - ancillary data object information 
Ancillary data consits of a sequence of pairs of 
* (cmsghdr, cmsg data[ ]) 
*/ 


struct emsghdr | 
. kernel size tcmsg len;  /* data byte count, including hdr */ 
int cmsg level; /* originating protocol */ 
int emsg type; /* protocol-specific type */ 


ie 


这 里 msghdr 结构 中 的 msg_name、msg_namelen 以 及 msg_flags 分 别 对 应 于 sys_sendto( ) 的 参数 addr、 


addr len 以 及 flags。 指 针 msg control 可 以 指 癌 “个 附加 的 数据 结构 ， 用 来 提供 一 些 附加 的 控制 伟 息 ， 
其 类 型 取决 于 具体 的 规程 ，… 般 为 cmsghdr 数据 结构 加 cmsg_data[ ] 数 组 。 此 外 ， 更 重要 的 是 ， 结 构 中 
有 个 指名 msg. iov 指向 Ô iovec 结构 数组 ， 其 定义 在 include/linux/uio.h F, M msg_iovlen 则 为 该 数 
组 的 大 小 : 


struct iovec 

{ 
void *iov base; /* BSD uses caddr t (1003. lg requires void *) */ 
|) kernel size t iov len; /* Must be size t (1003. 1g) */ 

a 


数 纠 中 的 每 一 个 元 素 即 iovee 结构 ， 都 是 一 个 所 谓 “io nE”, 由 指向 数据 缓冲 区 的 指针 iov. base 


和 表示 缓冲 区 中 数据 长 度 的 iov_len 构成 。 这 样 ， 由 报头 msghdr 结构 所 代表 的 报 文 可 以 由 多 个 数据 组 
冲 区 构成 ， 还 可 以 包含 由 msg control 所 指向 的 附加 信息 (通常 是 控制 信息 ;。 上 述 各 个 数据 结构 之 间 
KEK onl 7.3 所 示 。 
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图 7.3 报 文 数据 结构 联系 图 


所 以 ，msghdr 结构 代表 了 报 文 的 最 为 “ 般 的 形式 。 当 报 文 中 只 有 一 个 “io Ne”, 即 只 有 一 个 数 
殷 缓 冲 区 ， 并 且 不 含有 控制 信息 时 ， 就 相当 寺 普 通 的 “缓冲 区 地 丝 加 数据 长 度 ” 形 式 。 那 么 ， 为 什么 
在 报 文 的 ”- 般 形式 中 需要 能 容纳 多 个 数据 缓冲 区 呢 ? 计 我 们 考虑 一 下 在 网 络 环境 下 的 报 文 接 收 ， 就 以 
Ethernet 为 例 吧 。 在 Ethernet 中 ， 一 个 报 文 (packet， 或 frame) 的 最 大 长 度 约 为 1500 字 节 ， 而 最 小 长 
度 只 有 数 十 字 节 。 当 开始 从 网 络 接收 报 文 时 ， 其 长 度 通 常 是 未 知 的 ， 要 到 接收 完毕 时 才能 知道 它 的 长 
度 。 男 一 方面 ， 为 了 提高 效率 ， 用 于 从 网 络 上 接收 报 文 的 缓冲 区 都 总 预先 分 配 好 在 一 个 “缓冲 池 ” 中 
备用 的 ， 缓 冲 池 中 所 有 的 缓冲 区 都 其 有 相同 的 长 度 。 可 是 ， 每 个 缓冲 区 的 大 小 以 什么 为 准 呢 ? 如 果 都 
控 可 能 的 最 大 长 度 分 配 ， 那 就 必然 造成 很 大 的 浪费 ， 因 为 实际 上: 在 Ethernet 中 传递 的 报 文 多 数 是 100 
宁 节 以 下 的 。 如 果 减 少 缓冲 区 长 度 ， 那 就 势必 有 时 候 得 用 好 儿 个 缓冲 区 才能 容纳 一 个 报 文 。 由 此 可 见 ， 
比较 合理 的 安排 就 是 类 似 于 msghdr 数据 结构 那样 的 设计 ， 选 择 适 中 的 缓冲 区 长 度 ， 以 多 个 缓冲 区 来 容 
纳 ， 个 报 文 ， 人 允许 在 最 后 一 个 缓冲 区 中 浪费 少量 的 空间 。 不 过 要 指出 ， 这 里 讲 的 使 用 多 个 缓冲 区 是 指 
在 接收 进程 《或 发 送 进程 ) 与 插口 乙 间 ， 而 不 是 指 插口 与 插口 之 问 的 报 文 缓冲 区 。 

看 了 sys sendto( )， 如 何 将 其 参数 组 装 成 个 以 msghdr 结构 为 代表 的 报 文 的 ， 则 sys_recvfrom( ) 
如 何 将 其 还 原 就 是 不 言 而 喻 的 了 。 和 出 我 们 在 前 向 已 经 看 到 过 sys send( ) 和 sys recv( ) 分 别 是 通过 
sys. sendto( ) 和 sys recvfrom( YEMAY, 只 是 将 参数 中 的 指针 addr 设 成 NULL, 整数 addrlen 设 成 0 而 已 。 
7T read( ) 和 write( )， 我 们 已 经 看 到 其 与 sock. write ) 和 sys_sendto( ) 的 相似 性 。 


现在 可 以 来 看 sock, recvmsg( ) 和 sys_recvfrom( ) 的 代码 。 先 看 前 者 《net/socket.c): 


[sys_socketcall( ) > sys recvmsg( )] 


514 int sock recvmsg (struct socket*sock, struct msghdr *msg, int size, int flags) 
515 1 

516 struct scm cookie scm; 

517 

518 memset (&scm, 0, sizeof(scm)); 

519 
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520 size = Sock->ops->recvmsg(sock，msg，size，flags，&scm) ; 
521 if (size >= 0) 

522 sem recv(sock, msg, &scm, flags); 

523 

524 return size; 

525 } 


对 十 Unix 5X. RBM n3 Wl. AA ew XE RIDE AE unix dgram recvmsg ( ) 或 者 
unix stream, recvmsg( )。 

再 看 sys, recvfrom( ): 
[sys_socketcall({ ) > sys recvfrom( )] 


1212 /* 

1213 * Receive a frame from the socket and optionally record the address of the 
1214 * sonder. We verify the buffers are writable and if needed move the 
1215 * sender address from kernel to user space. 

1216 */ 

1217 

1218 asmlinkage long sys recvfrom(int fd, void * ubuf, size t size, unsigned flags, 
1219 struct sockaddr *addr, int *addr len) 

1220 4 

1221 struct socket *sock; 

1222 struct iovec iov; 

1223 struct msghdr msg; 

1224 char address [MAX SOCK ADDR]; 

1225 int err, err2; 

1226 

1227 sock = sockfd lookup(fd, &err); 

1228 if (!sock) 

1229 goto out; 

1230 

1231 msg. msg control-NULL:; 

1232 msg.msg controllen-0; 

1233 msg.msg iovlen-l; 

1234 msg.msg lov-&iov; 

1235 iov. iov_len=size; 

1236 iov. iov base-ubuf; 

1237 msg. msg name-address; 

1238 msg. msg namelen-MAX SOCK ADDR; 

1239 if (sock->file->f flags & QO NONBLOCK) 

1240 flags |= MSG DONTWAIT; 

1241 err-sock recvmsg (sock, &msg, size, flags); 

1242 

1243 if (err >= 0 && addr != NULL && msg.msg namelen) 

1244 { 

1245 err2=move addr to user (address, msg. msg namelen, addr, addr len); 
1246 if (err2<0) 
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1247 err-err2; 
1248 ] 

1249 sockfd put (sock) ; 
1250 out: 

1251 return err; 

1252 } 


可 见 ， 实 际 上 sys recvfrom( ) 的 主体 就 起 sock_recvmsg( )， 其 代码 在 net/socket.c #: 


[sys_socketcall{ ) > sys_recvfrom( ) > sock recvmsg( )] 


514 int sock recvmsg(struct socket *sock, struct msghdr *msg, int size, int flags) 


345 { 

516 struct scm cookie scm; 

517 

518 memset (&scm, 0, sizeof(scm)); 

519 

520 size = sock—>ops->recvmsg (sock, msg, size, flags, &scm); 
521 if (size >= 0) 

522 scm recv(sock, msg, &scm, flags); 
523 

024 return size; 

525 } 


这 个 函数 的 代码 与 上 面 的 sys_recvmsg( ) 一 模 一 样 。 简 单 地 说 ， 这 个 函数 就 做 两 件 事 。 第 一 件 是 接 
收报 文中 的 数据 以 及 附加 信息 ， 第 三 件 就 是 对 附加 信息 的 处 型 。 
接收 附加 信息 要 用 到 一 个 数据 结构 ， 那 就 是 sem cookie 结构 ， 十 在 include/net/sem.h 中 定义 的 : 
/* Well, we should have at least one descriptor open 
* to accept passed FDs 8) 


4 
5 
6 x/ 

了 #define SCM MAX FD (OPEN MAX -1) 
8 

9 


struct scm fp list 


10 { 

11 int count; 

12 struct file *fp[SCM MAX FD]; 

13 p 

14 

15 struct scm cookie 

16 { 

17 struct ucred creds; /* Skb credentials */ 
18 struct scm fp list 水 fb， /* Passed files */ 
19 unsigned long seg; /* Connection seqno */ 
20 — "Wa 


从 数据 结构 的 定义 可 以 看 出 ， 这 里 主要 有 了 商 种 信息 。 种 是 对 方 进程 的 “身份 ”(credentials )。 数 
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据 结构 类 型 ucred 是 在 include/linux/socket.h 中 定义 的 : 


125 struct ucred [| 


126 |. u32 pid: 
127 = u32 uid; 
128 . u32 gid; 
1287 25 


y- -种 就 是 有 关 打 开 文 件 的 信息 。BSD (以 及 Linux) 的 插口 机 制 允 许 个 进程 把 它 的 若 十 个 山 打 
开 文件 的 访问 权 传 递 给 ， 或 者 说 “授予 ” 另 一 个 进程 。 一 个 进程 最 多 可 以 同时 打开 的 文件 个 数 取 决 于 
一 个 常数 OPEN_MAX， 定 义 于 include/linux/limits.h F: 


9 #define OPEN MAX 256 /* # open files a process may have */ 


可 是 ， 有 一 个 位 置 是 必须 保留 的 ， 那 就 是 代表 着 插口 木 身 的 那个 已 打开 文件 。 所 以 在 scm_fd_list 
结构 中 的 file 结构 指针 数组 fp[ ] 的 人 小 为 OPEN_MAX 一 1)。 

首先 是 数据 部 分 的 接收 。 对 于 Unix 域 的 插口 ,sock->ops 视 插口 类 型 的 不 同 出 指 内 unix_dgram_ops 
BY unix stream ops, -者 的 recvmsg 指针 分 别 指向 unix dgram recvmsg( ) 和 unix stream, recvmsg( )。 


我 们 先 来 看 比较 简单 的 unix. dgram, recvmsg( ) (af_unix.c): 
[sys_socketcall( ) > sys recvmsg( ) > unix dgram recvmsg( )] 


1388 static int unix dgram recvmsg (struct socket *sock, struct msghdr *msg, int size, 


1399 int flags, struct scm cookie *scm) 
1400 { 

1401 struct sock *sk = sock-?sk; 

1402 int noblock = flags & MSG_DONTWAIT; 

1403 struct sk buff *skb; 

1404 int erf; 

1405 

1406 err = -EOPNOTSUPP; 

1407 if (flags&MSG OOB) 

1408 goto out; 

1409 

1410 msg-»msg namelen = Q; 

1411 

1412 skb = skb recv datagram(sk, flags, noblock, &err); 
1413 if (!skb) 

1414 goto out; 

1415 

1416 wake up interruptible(&sk-^protinfo. af unix. peer wait); 
1417 

1418 if (msg-^msg. name) 

1419 unix copy addr(msg, skb-5sk); 

1420 

1421 if (size > skb->len) 
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1422 size = skb->len; 

1423 else if (size € skb->len) 

1424 msg-»msg flags |- MSG TRUNC; 

1425 

1426 err = skb copy datagram iovec(skb, 0, msg-^msg iov, size); 
1427 if (err) 

1428 goto out free; 

1429 

1430 sem-?creds = *UNIXCREDS (skb) ， 

1431 

1432 if (t(flags & MSO PEEK)) 

1433 { 

1434 if (UNIXCB(skb). fp) 

1435 unix detach fds(scm, skb); 

1436 ] 

1437 else 

1438 { 

1439 /* It is questionable: on PEEK we could: 

1440 - do not return fds - good, but too simple 8) 

1441 - return fds, and do not return them on read (old strategy, 
1442 apparently wrong) 

1443 - clone fds (1 choosed it for now, it is the most universal 
1444 solution) 

1445 

1446 POSIX 1003. 1g does not actually define this clearly 
1447 at all. POSIX 1003. lg doesn’ t define a lot of things 
1448 clearly however! 

1449 

1450 */ 

1451 if (UNIXCB (skb). fp) 

1452 scm->fp = sem fp dup(UNIXCB (skb). fp); 

1453 ) 

1454 err = size; 

1455 

1456 out free: 

1457 skb free datagram(sk, skb); 

1458 out: 

1459 return err; 

1460 } 


参数 flags 中 有 个 标志 位 MSG_OOB, Arb BEA H REAR “out-of-band” WX. E “AE 
接 ” 模 式 的 通信 中 ， 普 通 的 数据 报 义 在 发 送 时 都 编 上 序号 ， 接 收 时 就 按 次 序 接收 。 但 是 ， 有 些 报 文 是 
用 于 控制 日 的 例如 载 送 着 “sc” 的 报 义 而 需要 优先 传递 的 ， 此 种 “编外 ” 报 文 就 称 为 OOB 报 文 。 
可 征 ， 在 “无 连接 ”模式 中 每 个 报 文 都 是 独立 的 ， 也 无 所 谓 次 序 ， 根 本 不 存在 OOB 报 文 这 么 个 概念 ， 
所 以 对 “无 连接 ” 持 口 调用 sock_recvmsg( ) 时 MSG_OOB 标志 位 不 应 该 为 1〈《 见 1407 行 )。 
EK skb_recv_datagram( ) 从 插口 的 接收 队 你 中 搞 取 ， 或 者 等 待 着 从 该 队列 中 摘 取 ，' 个 载运 着 报 文 
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的 sk_bu 任 结构 ， 读 者 在 前 面 讲述 sys_accept( ) 的 一 节 中 已 看 到 过 其 代 公 ， 此 处 就 不 重复 了 。 在 我 们 这 
个 情景 中 ， 假 定 队 列 中 已 经 有 报 文 存在 ， 所 以 当前 进程 不 需要 睡 虐 等 答 。 从 接收 队列 摘 取 ， 个 报 文 以 
后 ， 队 列 中 就 多 出 了 一 个 报 文 的 位 置 ， 所 以 此 览 醒 - -个 可 能 正 侍 睡眠、 等 待 着 更 投递 报 文 的 进程 。 如 
果 msghdr 结构 中 的 指针 msg_name 不 是 NULL， 也 就 是 说 接收 进程 为 对 方 〈 发 送 方 ) 的 插口 地 址 关 备 
好 了 一 个 缓冲 区 ， 就 要 将 对 方 的 插口 地 址 拷贝 到 一 个 临时 的 缓冲 区 中 《 见 这 里 的 1419 行 和 
sys recvfrom( ) 代 码 中 的 第 1245 行 )， 为 下 一 步 将 其 拷贝 到 用 户 空间 的 缓冲 KEES. AK 
unix_copy_addr( ) 的 代码 也 在 af_unix.c 中 : 


[sys_socketcall( ) > sys recvmsg( ) > unix dgram recvmsg( ) > unix, copy. addr( )] 


1387 static void unix_copy_addr (struct msghdr *msg, struct sock *sk) 
1388 { 


1389 msg—>msg_namelen = sizeof (short) ; 

1390 if (sk->protinfo. af_unix. addr) | 

1391 msg->msg_namelen=sk->protinfo. af unix. addr—>len,; 
1392 memcpy (msg->msg_name, 

1393 sk->protinfo. af unix. addr- name, 

1394 sk-^protinfo.af unix. addr->len) ; 

1395 | 

1396  ] 


下 面 就 是 对 接收 长 度 的 处 理 了 〈1421 一 1424 ÍF) SORTA), 也 就 是 更 求 接收 的 数据 大 小 
超过 报 文 的 实际 长 度 ， 那 就 按 报 文 的 实际 长 度 接 收 。 及 之 ， 如 果 缓 冲 区 小 于 报 文 的 实际 长 度 ， 滥 就 撤 
绥 冲 区 的 大 小 接收 ， 而 报 文中 剩余 的 数据 就 丢掉 了 ， 所 以 将 msg_flags 中 的 MSG_TRUNC 标志 设 成 1， 
表示 报 文 被 截 尾 了 。 长 度 一 经 确定 ， 就 可 以 把 数据 从 sk. buff 结构 中 拷贝 到 和 由 msghdr 结构 中 的 iovec[ ] 
向 量 表 所 指示 的 缓冲 区 中 ， 函 数 skb_copy_datagram_iovec( ) 的 代码 在 net/core/datagram.c FP: 


[sys_socketcall( ) > sys_recvmsg( ) > unix dgram recvmsg( ) > skb. copy. datagram iovec ( )] 


200 /* 

201 * Copy a datagram to an iovec. 

202 * Note: the iovec is modified during the copy. 

203 */ 

204 

205 int skb copy datagram iovec(struct sk buff *skb, int offset, struct iovec *to, 
206 int size) 

207 { 

208 return memcpy toiovec(to, skb->h. raw + offset, size); 

209} 


函数 memcpy_toiovec() 的 代码 则 在 net/coresiovec.c m: 


[sys. socketcall( ) > sys recvmsg( ) > unix dgram recvmsg( ) > skb. copy. datagram iovec ( ) 
> memopy. toiovec( )] 


ay s 
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76 — /* 


TT * Copy kernel to iovec. Returns -EFAULT on error. 
78 * 

79 * Note: this modifies the original iovec. 

80 */ 

81 

82 int memepy_toiovec (struct iovec *iov, unsigned char *kdata, int len) 
83 { 

84 int err = -EFAULT; 

85 

86 while (len>0) 

87 { 

88 if (iov—->iov_len) 

89 { 

90 int copy = min(iov—>iov_len, len); 

9| if (copy to user(iov-^iov base, kdata, copy) ) 
92 goto out; 

93 kdata*-copy; 

94 len-=copy; 

95 liov-^iov len--copy; 

96 iov-^iov base*-copy; 

97 ] 

98 lovtt; 

99 ] 

100 err = (; 

101 out: 

102 return err: 

103} 


对 于 Unix 域 的 插口 ，” 般 都 只 使 用 一 个 缓冲 区 ， 但 是 当然 也 可 通过 recvmsg( ) 来 把 报 文 接收 到 车 
干 个 较 小 的 缓冲 区 中 。 

除 报 文中 的 数据 外 ， 还 要 把 sk_buff 结构 中 载 送 的 有 关 对 方 身 份 的 信息 也 拷贝 到 前 而 准备 下 的 
scm cookie 结构 中 去 。 注 意 ， 国 数 unix dgram recvmsg( ) 中 第 1430 行 的 赋值 语句 所 做 的 是 整个 cred 
结构 的 复制 ， 对 UNIXCREDS 的 有 关 定 义 在 af. unix.h 中 


28 struct unix skb parms 


29 | 

30 struct ucred creds; /* Skb credentials */ 

31 struct scm fp list *fp: /* Passed files */ 

92- s 

33 

34 define UNIXCB(skb) Ck(struct unix skb parms*)&((skb)-»cb)) 


35 8define UNIXCREDS (skb) (&UNIXCB((skb)). creds) 


在 sk. buff 结构 中 有 个 48 字 节 的 字符 数组 cb[ ]， 可 以 根据 不 同 网 域 或 不 同 应 用 的 需要 来 载 送 - 些 
附加 信息 。 在 这 里 ， 用 它 来 传递 一 个 unix_skb_parms 结构 ， 其 内 容 包 括 发 送 方 的 身份 信息 以 及 一 个 指 
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向 要 授权 接收 方 使 用 的 已 打开 文件 表 的 指针 。 

至 此 ， 报 文中 的 数据 都 已 经 拷贝 到 了 用 户 空 间 的 缓冲 区 中 ， 附 加 的 信息 也 拷贝 到 了 痢 时 的 
scm cookie 结构 中 ， 从 “接收 ”的 攻 度 来 说 ， 主 要 的 任务 已 经 完成 了 。 但 是 ， 如 果 sk buff 结构 中 载 送 
着 对 已 打开 文件 的 访问 授权 的 话 ， 那 就 还 有 点 事 要 做 。 当 一 个 进程 把 对 它 的 若干 已 打开 文件 的 访问 权 
发 送 给 另 一 个 进程 时 ， 要 把 对 这 些 文件 访问 权 的 描绘 也 接收 下 来 。 另 一 方面 ， 如 果 这 些 己 打开 文件 代 
表 着 Unix 域 插 口 ， 则 发 送 者 要 为 每 个 这 样 的 已 打开 文件 记 下 ”- 笔 账 ， 说 明 对 它 的 使 用 权 正 在 传送 的 途 
中 。 而 对 方 在 接收 到 这 些 授权 后 则 此 负责 “ 销 账 ”。 以 前 讲 过 ， 用 户 进程 可 以 把 调用 参数 flags 中 的 
MSG_PEEK 标志 置 成 1， 表示 只 是 “ 偷 看 ”一 下 接收 队列 中 的 第 一 个 报 文 ， 而 并 不 其 的 接收 这 个 报 文 。 
所 以 skb_recv_datagram( ) 在 这 种 情况 下 并 不 将 报 文 从 队列 中 摘除 , 而 只 是 将 该 报 文 的 共享 计数 users 加 
1 后 便 返回 指向 该 sk_buff 结构 的 指针 。 所 以 ， 在 这 册 种 情况 上 ， 对 报 文中 载 达 的 访问 授权 所 作 的 处 理 
也 有 所 不 同 。 如 果 接 收 方 在 调用 recv( ) 等 函数 时 的 MSG_PEEK 标志 位 为 0， 也 就 是 涪 正 式 “ 接 收 ” 了 
这 些 授 权时 ， 就 要 调用 unix_detach_fds( ) 来 销 账 。 这 个 男 数 的 代码 在 af. unix.c H: 


[sys_socketcall( ) > sys recvmsg( ) > unix dgram recvmsg( ) > unix_detach_fds ( )] 


1111 static void unix detach fds (struct scm cookie *scem, struct sk buff *skb) 


1112 { 

1113 int i; 

1114 

1115 scm->fp = UNIXCB(skb). fp; 

1116 skb->destructor - sock wfree; 

1117 UNIXCB(skb). fp = NULL; 

1118 

1119 for (i=scm->fp-—>count-1; i>=0; i--) 
1120 unix_notinflight (sem->fp->fpli]); 
121  ] ` 


这 里 一 方面 将 sk_buff 结构 中 的 scm, fp. list 指 外 (也 在 前 述 的 cb 所 载 送 的 unix_skb_parms 结构 中 ) 
也 拷贝 到 sem cookie 结构 中 ， 并 为 缓冲 区 的 县 放 准 备 仆 一 个 函数 sock_wfree( ). 58 — 77 AW it 
unix notinflight( ) 来 销 账 ， 表 示 该 项 授权 已 不 再 在 “飞行 中 ”。 其 代码 在 nevunix/garbage.c H; 


[sys_socketcall( ) > sys_recvmsg( ) > unix_dgram_recvmsg( ) > unix_detach_fds ( ) > unix, notinflight( )] 


130 void unix notinflight (struct file *fp) 


13. -2^1 

132 unix socket *s-unix get socket (fp); 

133 if(s) { 

134 atomic dec (&s—>protinto. af unix. inflight) ; 
135 atomic dec (&unix tot inflight); 

136 } 

17} 


这 里 的 unix_get_socket( ) 从 给 定 的 file 结构 出 发 找到 其 inode 结构 ， 如 果 该 inode 结构 代表 着 一 个 
Unix 域 插口 ， 就 返回 指向 其 sock 结构 Gnode 结构 的 一 部 分 ) 的 指针 ， 代 码 亦 在 garbage.c 中 : 
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[sys_socketcall( ) > sys recvmsg( ) > unix dgram recvmsg( ) > unix detach fds ( ) > unix notinflight( ) 
> unix get socket( )] 


95 extern inline unix socket *unix_get_socket (struct file *filp) 


96 d 

97 unix socket * u sock = NULL; 

98 struct inode *inode = filp-^f dentry-»d inode; 
99 

100 /* 

101 * Socket ? 

102 */ 

103 if (inode && inode-^i sock) { 

104 struct socket * sock = &inode-^u. socket i; 
105 struct sock * s = sock—>sk; 

106 

107 /* 

108 * PF UNIX ? 

109 */ 

110 if (s && sock->ops && sock-^ops-^family == PF UN1X) 
111 u sock = s; 

112 j 

113 return u sock; 

114 } 


如 果 接 收 方 只 是 看 -下 ， 而 并 不 真正 接收 呢 ? 代码 的 作者 在 unix dgram recvmsg( ) 的 代 公 中 加 了 
注解 ， 说 POSIX 1003.1g 对 此 没有 作出 规定 ， 所 以 这 里 采取 了 为 sem. cookie 结构 复制 一 份 scm_fp_list 
结构 《而 不 是 其 指针 ) 的 做 法 。 当 然 ， 这 时 候 不 能 把 账 销 掉 ， 因 为 对 这 些 已 打开 文件 的 访问 权 仍 在 递 
区 的 途中 。 

最 后 ， 将 sk_buff 结构 所 占 的 缓冲 区 释放 掉 (1457 行 )。 

加 到 sock recvmsg( ) 的 代码 中 (521 行 )， 下 一 件 事 就 是 对 接收 到 的 附加 信息 (如 果 有 的 话 ) 的 处 
PE f. Inline 函数 scm recv( ) 的 代码 在 include/net/scm.h H: 


[sys socketcall( ) > sys recvfrom( ) > sock recvmsg( ) > scm, recv( )] 


45 static | inline void scm recv(struct socket *sock, struct msghdr *msg, 
46 struct scm cookie *scm, int flags) 
47 { 

48 if (!msg—->msg control) 

49 | 

50 if (sock~>passcred |! scm->fp) 

51 msg->msg_flags |= MSG CTRUNC: 

52 scm destroy (sem) : 

93 return; 

54 } 

55 

56 if (sock->passcred) 
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57 put cmsg(msg, SOL SOCKET, SCM CREDENTIALS, sizeof (scm->creds), &scm—>creds) ; 
58 

59 if (Isecm fp) 

60 return; 

61 

62 scm detach fds(msg, scm); 

63 } 


如 果 接 收 进程 在 其 msghdr 结构 中 没有 为 控制 信息 《附加 信息 〉 准备 好 缓冲 区 ， 那 就 没有 什么 事 可 
干 了 ， 所 以 把 scm_cookie 结构 “销毁 ”就 完事 了 (52 行 )。 所 请 把 scm cookie 结构 “销毁 ”， 实 际 上 
FL FSH HE FIX PSE RE. BF sem, cookie 结构 本 身 ， 是 作为 sock_recvmsg( ) 的 局 部 量 存 
在 于 堆栈 中 ， 所 以 不 存在 释放 空间 的 问题 。 这 里 要 指出 ， 只 有 在 通过 recvmsg( ) 进 入 sys_recvmsg( ) 时 ， 
才 有 可 能 在 msghdr 结构 中 为 控制 信息 准备 缓冲 区 ， 因 为 这 个 函数 的 参数 之 ”是 个 msghdr 结构 指针 ; 
其 他 的 函数 都 在 程序 中 固定 将 msghdr 结构 内 的 指针 msg. control 设 成 NULL。 所 以 ,只 有 通过 recvmsg( ) 
才能 接收 到 对 方 的 身份 消息 ， 也 只 有 通过 recvmsg( ) 才 能 接收 对 方 传递 过 来 的 已 打开 文件 的 访问 授权 。 

函数 put cmg ) 将 有 关 的 附加 信息 〈 在 这 里 是 有 关 对 方 身 份 的 信息 ) 递交 到 用 户 空 间 去 ， 其 代码 
在 net/core/sem.c 中 ， 有 兴趣 的 读者 可 白 行 阅 读 。 

如 果 在 scm. cookie 结构 中 包含 有 对 已 打开 文件 的 访问 授权 ， 那 就 要 把 这 些 已 打开 文件 《由 发 送 进 
程 打 开 》 纳 入 到 接收 进程 的 已 打开 文件 表 中 。 相 对 来 说 ， 这 就 要 复 林 一 点 了 ，scm_detach_fds( ) 的 代码 
也 在 scm.c F: 


[sys_socketcall( ) > sys_recvfrom( ) > sock, recvmsg( ) > scm recv( ) > scm, detach fds( )] 


203 void scm detach fds (struct msghdr *msg, struct scm cookie *scm) 
204 | 


205 struct cmsghdr *cm = (struct cmsghdr*)msg-?msg control; 

206 

207 int fdmax = 0; 

208 int fdnum = scm->fp~>count; 

209 struct file **fp = scm->fp->fp; 

210 int *emfptr; 

211 int err = 0, 1; 

212 

213 if (msg->msg controllen > sizeof(struct cmsghdr)) 

214 fdmax = ((msg- msg controllen ~ sizeof (struct cmsghdr)) 
215 / sizeof (int)) ; 

216 

217 if (fdnum < fdmax) 

218 fdmax = fdnum; 

219 

220 for (i-0, emfptr-(int*)CMSG DATA(cm); i<fdmax; i++, cmfptr++) 
221 { 

222 int new fd; 

223 err = get unused fd( ); 

224 if (err < 0) 
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225 break; 

226 new_fd = err; 

227 err = put user(new fd, cmfptr); 

228 if (err) | 

229 put unused fd(new fd); 

230 break; 

231 } 

232 /* Bump the usage count and install the file. */ 
233 get file(fp[iD; 

234 fd install(new fd, fp[il); 

235 } 

236 

237 if (i > 0) 

238 { 

239 int cmlen = CMSG LEN(i*sizeof (int)) ， 

240 if (terr) 

241 err = put user(SOL SOCKET, &cm->cmsg level): 
242 if (lerr) 

243 err = put user(SCM RIGHTS, &cm-»cmsg type); 
244 if (!err) 

245 err = put user(cmlen, &cm->cmsg len); 

246 if (lerr) 4 

247 cmlen = CMSG SPACE (i*sizeof (int)); 

248 msg-^msg control += cmlen; 

249 msg-?»msg controllen -= cmlen; 

250 ) 

251 } 

252 if (i < fdnum || (fdnum && fdmax <- 0)) 

253 msg-?msg flags |= MSG CTRUNC; 

254 

255 /* 

256 * All of the files that fit in the message have had their 
297 * usage counts incremented, so we just free the list. 
258 */ 

259 __scm_destroy (sem) ; 

260 } 


代码 中 的 fdmax 表示 接收 方 msghdr 结构 中 用 来 接收 这 些 己 打 开 文 件 指针 的 缓冲 区 容量 ; 而 fdnum 
则 古 通 过 报 文 传递 过 来 的 已 打 地 文件 指针 的 个 数 , 此 项 信息 已 经 在 一 个 临时 的 sem, cookie 数据 结构 中 。 
炎 然 ， 这 两 个 数值 只 能 以 较 小 者 为 准 。 读 者 在 前 面 已 经 看 到 过 ， 在 scm_cookie 结构 中 有 个 指针 fp, 48 
问 一 个 scm fp list 结构 ， 而 这 个 结构 中 则 有 - -个 fle 结构 指针 数组 ， 数 组 中 的 每 个 元 素 都 是 指针 ， 指 
癌 发 送 进程 的 一 个 已 打开 文件 的 file 结构 。 现 在 ， 发 送 方 已 经 将 这 个 指针 传 过 米 了 ， 接收 方 要 做 的 就 
是 把 它 “ 安 装 ” 到 人 它 自己 的 已 打开 文件 表 中 。 这 样 做 了 以 后 ， 两 个 进程 就 可 以 共享 这 个 已 打开 文件 了 。 
当然 ， 共 享 的 双方 必须 在 同 : - 台 计 算 机 上 。 

代码 中 从 220 行 开 始 的 for 循环 就 是 对 传 过 来 并 且 在 缓冲 区 容量 之 内 的 每 个 指针 做 这 件 事 。 首先 当 
然 是 在 当前 进程 的 打开 文件 表 中 找到 一 个 空闲 位 置 ， 其 下 标 即 是 新 的 打开 文件 号 new fa。 然后 ， 宝 操 
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作 put_user( ) 把 这 个 新 的 打开 文件 号 写 入 到 用 户 空 间 中 准备 好 的 缓冲 区 中 《msg->msg_control 指向 这 块 
缓冲 区 )。 前 和 面 我 们 讲 到 缓冲 区 的 容量 问题 ， 就 是 指 用 卢 空 间 中 的 这 块 缓冲 区 是 否 足够 于 用 来 返 辐 这些 
新 的 打开 文件 号 。 一 旦 把 传 过 来 的 指针 安装 在 接收 进程 的 打开 文件 表 中 ， 相 应 的 file 结构 就 多 了 一 个 
用 户 ， 所 以 要 通过 get_file( ) 递 增 其 共享 计数 。 最 后 ， 就 是 把 这 个 指针 “安装 ”到 接收 进程 《就 吓 当前 
进程 ) 的 打开 文件 表 中 了 ， 而 new_fd 则 指明 了 人 在 表 中 的 位 置 。 

前 面 讲 过 ，msg->msg_control 指向 用户 空间 的 “ 块 缓冲 区 ， 这 块 组 冲 区 实际 上 是 由 个 cmsghdr 
结构 加 上 一 个 数据 部 分 〈 用 来 返 辐 新 增 的 打开 文件 号 ) 构成 的 。 只 要 接收 并 安装 了 全 少 一 个 新 的 已 打 
开 文 件 ， 就 要 设置 cmsghdr 结构 中 的 头 部 信息 ， 包 括 实 际 使 用 的 数据 部 分 的 氏 度 cmlen。 最 后 ， 还 里 调 
用 __scm_destroy( )， 将 依附 于 sem. cookie 结构 的 动态 分 上 由 的 存储 空间 “在 这 里 是 sem fp list 结构 ) E 
放 掉 。 

进程 间 对 已 打开 文件 的 这 种 访问 授权 ， 在 某 些 应 用 中 是 很 有 意义 的 。 以 插口 的 使 用 为 例 ， 我 们 以 
前 讲 过 ,“ 有 连接 ”插口 的 典型 运用 是 :在 accept() 产 生 了 一 个 新 的 已 经 建立 起 连接 的 插口 以 后 ,就 fork( ) 
一 个 子 进 程 ， 让 了 进程 去 为 client 方 提 供 服 务 ， 而 父 进程 本 身 则 又 进入 accept( ) 等 得 新 的 连接 请 求 。 不 
管 怎 么 说 ， 动 态 地 fork( ) 一 个 子 进 程 的 代价 终究 还 是 不 小 的 。 现 在 有 了 跨 进 程 的 访问 授权 ， 就 可 以 预 
先 创 建 若干 个 子 进程 ,一旦 accept() 上 产生 了 一 个 新 的 插口 ,号 可 以 把 对 该 插口 的 访问 权 传 给 某 个 空闲 的 
子 进 程 ， 让 它 去 提供 服务 。 这 样 ， 就 可 以 省 去 了 因 每 次 部 fork( ) -一 个 新 进程 而 引起 的 延迟 。 

在 上 面 这 个 情景 中 ， 我 们 假定 在 接收 方 的 receive queue 队列 中 已 经 有 报 文 在 等 待 ， 所 以 接收 进程 
ARAE skb recv datagram( PHERS 4}. WORT PRAR NM, AUER DT hi IRS TF 
等 到 有 报 文 到 达 时 才 被 唤醒 ， 这 种 情景 读 少 在 前 向 讲述 accept( ) 和 connect ) 时 已 经 看 到 过 了 。 

再 来 看 Unis 域 “ 无 连接 ”插口 的 报 文 友 述 。 

与 sock recvmsg( ) 相 对 应 的 函数 是 sock sendmsg( )， 其 代 伍 在 文件 net/socket.c T: 


[sys socketcall( ) > sys sendmsg( ) > sock_sendmsg( )] 


501 int sock_sendmsg (struct socket *sock, struct msghdr *msg, int size) 
502.  { 


503 int err; 

504 struct scm cookie scm; 

505 

506 err - scm send(sock, msg, &scm); 

507 if (err >= 0) { 

508 err = sock-^»ops-^sendmsg(sock, msg, size, &scm); 
509 scm destroy (&scm) ; 

510 } 

oll return err; 

512 } 


首先 是 对 发 送 者 身份 以 及 附加 控制 信息 的 处 理 ，inline ER scm_send( ) 的 代码 在 include/net/scm.h 
中 。 与 接收 报 文 时 相似 ， 只 有 在 通过 sendmsg( ) 进 入 sys_sendmsg( ) 时 才 有 喇 能 随同 报 文 发 送 这 些 附 加 
信息 ， 因 为 这 个 函数 的 参数 之 是 个 msghdr 结构 指针 ， 其 他 的 消 数 都 在 程序 中 国定 将 msghdr 结构 内 
的 指针 msg_control 设 成 NULL。 


[sys_socketcaH( ) > sys sendmsg( ) > sock_sendmsg( )] 
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33 
34 
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static __inline__ int sem_send(struct socket *sock, struct msghdr *msg, 


j 


struct scm cookie *scm) 


memset (sem, 0, sizeof (*scm)); 

scm-?creds.uid = current-^uid; 

scm-?creds.gid = current-»gid; 

scm-?creds. pid = current-»pid; 

if (msg->msg_controllen <= 0) 
return 0; 

return | scm send(sock, msg, scm); 


[sys socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > __ scm send( )] 


114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
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int 


| 


..Scm send(struct socket *sock, struct msghdr *msg, struct scm cookie *p) 


struct cmsghdr *cmsg: 
int err; 


for (emsg = CMSG FIRSTHDR(msg); cmsg; cmsg = CMSG NXTHDR(msg, cmsg)) 
{ 
err = —EINVAL; 


/* Verify that cmsg_len is at least sizeof(struct cmsghdr) */ 
/* The first check was omitted in <= 2.2.5. The reasoning was 

that parser checks cmsg len in any case, so that 

additional check would be work duplication. 

But if emsg level is not SOL SOCKET, we do not check 

for too short ancillary data object at ali! Oops. 

OK, let's add it... 
*/ 
if (emsg-^cmsg len € sizeof(struct cmsghdr) || 

(unsigned long) (((char*)cmsg - (char*)msg-?msg control) 
+ cmsg->cmsg len) > msg->msg controllen) 
golo error; 


if (cmsg-^emsg level != SOL SOCKET) 
continue; 


switch (cmsg-^cmsg type) 
{ 
case SCM RIGHTS: 
err-sem fp copy(emsg, &p->fp) ; 
if (err<0) 
goto error; 
break; 
case SCM CREDENTIALS: 
if (cmsg->cmsg len != CMSG LEN (sizeof (struct ucred))) 
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148 goto error; 

149 memcpy (&p->creds, CMSG DATA (cmsg), sizeof (struct ucred)) ; 
150 err = scm check creds(&p-^creds); 
151 if (err) 

152 goto error; 

153 break; 

154 default: 

159 goto error; 

156 } 

157 } 

158 

159 if (p-^fp && !p->fp->count) 
160 { 

161 kfree(p->fp) ; 

162 p->fp = NULL; 

163 } 

164 return 0: 

165 

166 error: 

167 scm destroy (p) ; 

168 return err; 

169  ] 


读者 可 以 对 照 前 面 的 sem recev OB 4109 eI ELA, 
把 附加 信息 搭 挂 到 报 文 上 以 后 ， 就 要 通过 具体 的 发 送 函 数 把 报 文 发 送出 去 了 。 对 十 Unix 域 的 无 连 
接 插 口 ， 这 个 函数 是 unix_dgram_sendmsg( )。 这 个 函数 比较 大 ， 我 们 分 段 阅读 : 


[sys_socketcall( ) > sys_sendmsg( ) > sock_sendmsg( ) > unix_dgram_sendmsg( )] 


145 /® 

1146 * Send AT UNIX data. 

1147 */ 

1148 

1149 static int unix dgram sendmsg (struct socket *sock, struct msghdr *msg, int len, 
1150 struct scm cookie *scm) 

1b] { 

1152 struct sock *sk = sock~>sk; 

1153 struct sockaddr un *sunaddr=msg->msg_name; 
1154 unix socket *other = NULL; 

1155 int namelen = 0; /* fake GCC */ 

1156 int err; 

1157 unsigned hash; 

1158 struct sk buff *skb; 

1159 long timeo; 

1160 

1161 err = -EOPNOTSUPP; 

1162 if (msg->msg flags&MSG 00B) 
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1163 goto out; 

1164 

1165 if (msg-^msg namelen) { 

1166 err = unix mkname(sunaddr, msg-^msg namelen, &hash): 
1167 if (err < 0) 

1168 goto out; 

1169 namelen - err; 

1170 } else { 

1171 sunaddr = NULL; 

1172 err = -ENOTCONN; 

1173 other = unix_peer_get (sk); 

1174 if (other) 

1175 goto out; 

1176 } 

1177 

1178 if (sock->passcred && '!sk—>protinfo. af unix. addr && 
1179 (err = unix autobind(sock)) != 0) 
1180 goto out; 

1181 

1182 err - -EMSGSIZE; 

1183 if ((unsigned)len > sk—>sndbuf - 32) 
1184 goto out; 

1185 


首先 ,“ 无 连接 ” 捅 口 不 支持 “编外 ”的 OOB 报 文 ， 也 不 支持 除 MSG DONTWAIT 和 
MSG_NOSIGNAL 以 外 的 任何 标志 位 。 如 果 在 调用 参数 中 提供 了 对 方 地 址 , 那 就 先 通过 unix_mkname( ) 
将 其 “规格 化 ”后 备用 。 如 果 没 有 提供 对 方 地 址 呢 ? 那 就 是 假定 已 经 调用 过 connect( ), 设 置 好 了 通 向 日 
标 插口 的 路 径 ， 所 以 通过 unix peer get( ) 就 可 以 获得 指向 对 方 sock 结构 的 指针 。 可 是 ， 要 是 实际 上 并 
没有 调用 过 connect( WE? 那 当 然 不 能 再 御前 走 了 ， 所 以 此 时 的 出 错 代码 为 一 ENOTCONN。 此 外 ， 如 
果 插 口 的 可 选项 passcred 规定 要 随 报 文 传递 与 插口 身份 有 关 的 信息 (注意 与 发 送 进 程 身份 的 区 别 )， 而 
又 从 未 通过 bind( ) 为 其 指定 一 个 地 址 ， 那 就 要 通过 unix_autobind( ) 为 其 白 动 生成 一 个 。 插 口 的 发 送 报 
文 缓冲 区 大 小 记录 在 其 sock 结构 的 sndbuf 字段 路 ,但 是 此 保留 32 字 节 用 于 控制 月 的 ， 所 以 1183 473. 
此 检查 报 文 的 长 度 。 这 里 要 注意 ， 朋 然 在 报 文 发 送 之 前 和 接收 之 后 可 以 采用 iovecf ] 把 报 文 分 散 存放 在 
多 个 缓冲 区 中 ， 但 是 在 发 送 的 过 程 中 总 是 企 同 一 个 缓冲 区 中 。 这 …- 来 是 对 网 络 报 文 的 模拟 ， 二 来 也 是 
因为 通过 iovec[ 提供 的 缓冲 区 是 在 用 户 空 间 ， 而 不 是 在 系统 空间 。 我 们 继续 往 下 看 : 


[sys socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > unix_dgram_sendmsg( )] 


1186 skb-sock alloc send skb(sk, lon, 0, msg->msg_flags&MSG DONTWAIT, &err); 
1187 if (skb==NULI) 

1188 goto oul; 

1189 

1190 memcpy (UNTXCREDS (skb), &scm->creds, sizeof(struct ucred)); 

1191 if (scm->fp) 

1192 unix attach fds(sem, skh): 
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0 


skb-^h.raw = skb->data; 
err = memcpy fromiovec(skb_put (skb, len), msg—>msg iov, len); 
if (err) 

goto out free; 


timeo = sock sndtimeo(sk, msg-^msg flags & MSG_DONTWAIT) ; 


接着 ， 就 是 为 报 文 的 发 送 分 配 :个 sk buff 结构 ， 包 括 所 需 的 缓冲 区 。 函 数 sock sendmsg( ) 在 通过 


插口 proto. ops 的 结构 调用 unix_dgram_sendmsg( ) 之 前 ， 先 给 装 了 个 临时 的 sem cookie 结构 ， 其 中 
的 信息 来 自 更 上 层 的 已 组 装 、 或 者 发 送 进程 作为 参数 传递 过 来 的 msghdr 结构 中 。 现 在 载 送 报 义 的 
sk buff 结构 和 缓冲 区 已 经 分 配 好 ， 所 以 把 这 些 信息 先 拷贝 进去 〈 见 1190 一 1195 行 )。 这 里 的 
. unix attach. fds( ) 处 理 对 已 打开 文件 的 访问 授权 ， 前 面 已 经 讲 到 过 了 ， 其 代码 也 在 af_unix.c 中 ， 


[sys_socketcall( ) > sys. sendmsg( ) > sock, sendmsg( ) > unix dgram sendmsg( ) > unix, attach. fds( )] 


1135 
1136 
1137 
1138 
1139 
1140 
1141 
1142 
1143 


static void unix attach fds(struct scm cookie *scm, struct sk buff *skb) 


{ 


| 


int i; 

for (i=scm->fp->count-1; i>=0; i--) 
unix inflight(scm->fp->fpfi]) ; 

UNIXCB(skb). fp = scm->fp:; 

skb->destructor = unix destruct fds; 

sem->fp = NULL; 


同样 ， 如 果 所 授权 的 已 打开 文件 代表 着 Unix BL. WUE Pic PBK. RATA 


前 面 的 unix_notinflight( ) 阅 读 unix_inflight( ) 的 代码 Cnet/unix/garbage.c): 


[sys. socketcall( ) > sys sendmsg( ) > sock, sendmsg( ) > unix dgram sendmsg( ) > unix, attach. fds( ) 
> unix inflight( )] 


116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
121 
128 


/* 
* Keep the number of times in flight count for the file 
* descriptor if it is for an AF UNTX socket. 


{ 


void unix inflight (struct file *fp) 


unix socket ¥*s=unix_get_socket (fp) ; 

Lees) 4 
atomic inc(&s-protinfo. af unix. inflight); 
atomic inc(&unix tot inflight); 
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然后 ， 再 将 报 文中 的 数据 从 用 户 空间 的 缓冲 区 中 拷贝 到 依附 于 sk buff 结构 的 缓冲 区 中 。 根 所 
msghdr 结构 中 的 具体 设置 ， 用 户 空间 中 的 数据 有 可 能 分 散在 若干 个 缓冲 区 中 ， 但 是 依附 于 sk_buff 结 


构 的 缓冲 区 却 只 有 一 个 ， 其 大 小 应 是 用 户 空间 中 各 个 缓冲 区 中 数据 长 度 的 总 和 。 函 数 
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memcpy. fromiovec( ) 与 我 们 前 面 看 到 过 的 memepy_toiovec( ) 相 似 ， 只 是 拷贝 的 方向 相反 。 


此 外 ，iniine 函数 skb_put( )， 根 据 数据 的 总 长 度 调整 sk_buff 结构 中 的 指针 skb->tail 和 当前 数据 长 
FE skb->len, 而 返回 skb->tail 的 初 值 , 也 就 是 缓冲 区 的 起 点 (1195 行 ), 这 段 代码 在 include/linux/skbuff.h 


m: 


[sys socketcall() sys sendmsg( ) > sock, sendmsg( ) > unix dgram sendmsg( ) > skb, put( )] 


694 / 


695 
696 
697 
698 
699 
700 
701 
702 
703 


% 其 其 X X X X 


skb put -~ add data to a buffer 
Gskb: buffer to use 
@ien: amount of data to add 


This function extends the used data area of the buffer. If this would 
exceed the total buffer size the kernel will panic. A pointer to the 
first byte of the extra data is returned. 


704 static inline unsigned char *skb_put (struct sk buff *skb, unsigned int len) 


705 { 
706 
707 
708 
709 
710 
711 
712 
713. } 


unsigned char *tmp=skb->tail; 
skb->taiit+=len; 
skb->len+=len; 
if (skb->tail>skb—>end) { 
skb over panic(skb, len, current_text_addr( )); 


} 


return tmp; 


Ra, ib eit —~ inline 函数 sock_sndtimeo( ) 确 定 对 发 送 过程 的 时 间 限 制 ; 


1249 static inline long sock_sndtimeo (struct sock *sk, int noblock) 


1250 { 
1251 
1252 } 


DA SEM Se LEASES, RYE BGS AAR ICH sk. buff 结构 送 到 月 标 插口 一 侧 去 了 。 我 们 继 


续 往 下 看 : 


return noblock ? 0 : sk->sndtimeo: 


[sys socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > unix dgram sendmsg( )] 


1201 restart: 


1202 
1203 
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if (lother) { 
err - -ECONNRESET; 


1204 
1205 
1206 
1207 
1208 
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1210 
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1234 
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1243 
1244 
1245 
1246 
1247 
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if (sunaddr == NULL) 
goto out free; 


other = unix find other(sunaddr, namelen, sk-^type, hash, &err); 
if (other==NULL) 
goto out free; 


} 


unix state rlock (other) ; 

err = -EPERM; 

if (lunix may_send(sk, other) ) 
goto out_unlock; 


if (other-»dead) | 
/* 
* Check with 1003. lg - what should 
* datagram error 
*/ 
unix state runlock (other); 
sock put (other); 


err = 0; 

unix state wlock (sk) ; 

if (unix_peer(sk) == other) { 
unix peer (sk) =NULL; 
unix _state_wunlock (sk) ; 


unix dgram disconnected(sk, other); 
sock put (other) ; 
err = -ECONNREFUSED; 
} else { 
unix state wunlock (sk); 


} 


other = NULL; 
if (err) 

goto out free; 
goto restart; 


err - -EPIPE; 
if (other->shutdown&RCV SHUTDOWN) 
goto out unlock; 


如 果 插 口 在 本 次 发 送 之 前 已 经 通过 connect( ) 建 立 了 通 向 下 标 插口 的 路 答 ， 孝 么 此 时 指针 other 已 


经 指向 对 方 的 sock 结构 ， 否 则 即 为 NULL。 或 者 ， 虽 然 以 前 已 经 调用 过 connect( )， 但 是 在 本 次 发 送 时 
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MAET 个 地 址 ， 此 时 other 也 是 0 CHL 1165 行 )。 所 以 ， 指 针 other 为 NULL MK abit 
unix_find_other( ) 找 到 对 方 的 sock 结构 。 这 个 函数 我 们 在 connect( ) 一 节 中 已 经 看 到 过 了 。 找 到 了 对 方 
以 后 ， 还 发 通过 unix may. send( ) 测 试 一 下 是 否 允 许 从 我 方 插口 向 对 方 揪 吕 发送， 测试 的 准则 是 对 方 并 
没有 通过 connect, ) 把 路 径 设置 成 通 向 “第 二 者 ”，unix_may_send( ) 的 代码 我 们 也 已 经 在 讲述 “无 连接 ” 
插口 的 connect( ) 时 看 到 过 了 。 

虽然 找到 了 对 方 插 口 ， 但 是 这 个 插口 却 并 不 一 定 还 活着 。 我 们 在 讲述 “有 连接 ”插口 的 connect 
时 已 经 讨论 过 这 方面 的 间 古 ,器 过 头 友 看 一 卜 会 助 于 理解 1217~ 1242 行 的 这 一 段 代码 。 在 寻找 对 方 
插口 的 sock 结构 的 过 程 中 ， 函 数 unix_find_other( ) 利 unix_peer_get( ) 是 二 者 必 经 其 一 的 ， 而 这 二 者 都 
直接 或 问 接地 调用 sock_hold( ) 递 增 了 对 方 揪 口 的 使 用 计数 。 所 以 1223 行 的 sock_put( ) 就 是 与 这 者 之 
一 配对 的 ， 也 就 是 将 对 方 插 凯 的 使 用 计数 递减 ， 如 果 减 后 达到 了 0 就 将 其 sock 结构 所 占 的 空间 释放 。 
如 果 本 次 发 送 的 目标 内 是 临时 的 ， 滥 么 这 就 可 以 了 ， 下 面 就 转 人 到 restart 处 看 看 是 否 还 能 找到 具有 相同 
地 址 的 其 他 插 中 《原来 的 插口 撤销 后 可 能 又 重新 建立 了 )， 不 过 通常 此 时 unix_find_other( ) 会 失败 而 出 
错 返 回 。 可 是 ， 如 果 这 个 日 标 是 以 前 通过 connect( ) 设 置 的 ， 那 就 又 太一 样 了 。 首 先是 还 要 再 调用 一 次 
Sock. put( ), 因为 当初 在 建立 起 通 向 目标 的 路 径 时 也 曾 对 吕 标 播 口 的 sock 结构 调用 过 一 次 sock, hold( ), 
现在 要 把 它 抵消 。 其 次 ， 既 然 是 原先 通过 connect( ) 建 立 的 比较 稳固 的 伙伴 关系 《虽然 是 无 连接 模式 )， 
而 现在 对 方 已 经 “去 世 ”， 那 就 不 像 对 临时 给 定 的 地 址 : 样 需 要 再 找 找 有 无 相同 地 址 的 插口 了 ， 所 以 直 
接 就 将 出 错 代 码 设 置 成 一 ECONNREFUSED， 并 和 转 全 out, free 处 返回 。 

现在 只 剩 下 最 后 一 个 可 能 的 障碍 了 ， 那 就 是 脐 标 播 门 可 能 已 经 通过 shutdown( ) 将 接收 报 文 的 功能 
关闭 了 《但 是 插口 并 未 撤销 )。 注 意 在 这 种 情况 下 返回 的 出 错 代 码 为 一 EPIPE。 

全 此 ， 所 有 的 关卡 都 已 经 通过 了 ， 下 而 就 要 将 报 文 《 央 sk buff 结构 》 挂 入 日 标 播 口 的 sock 结构 
里 的 接收 队列 中 。 ; 

冉 在 unix dgram sendmsg( ) 中 继续 往 下 看 Caf_unix.x): 


[sys. socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > unix_dgram_sendmsg( )] 


1248 if (unix_peer(other) != sk && 

1249 skb queue len(&other-^reccive queue) > other->max_ack backlog) { 
1250 if (!timeo) { 

1251 err = -EAGATN; 

1252 goto out unlock; 

1253 } 

1254 

1255 timeo = unix wait for peer(other, timeo); 
1256 

1257 err = sock_intr_errno (timeo) ; 

1258 if (signal pending(current)) 

1259 goto out free; 

1260 

1261 goto restart; 

1262 } 

1263 

1264 skb queue_tail (&other->receive queue, skb); 
1265 unix state_runlock (other) ; 
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1266 other->data ready (other, len); 


1267 sock put (other); 
1268 return len; 

1269 

1270 out unlock: 

1271 unix state runlock (other); 
1272 out free: 

1213 kfree skb(skb); 

1274 out: 

1275 if (other) 

1276 sock put (other) ; 
1277 return err; 

1278 } 


下 面 就 是 将 一 个 “无 连接 ”模式 报 文 挂 入 接收 队列 的 过 程 ， 这 与 “有 连接 ” 横 式 中 将 个 “连接 
请 求 ” 报 文 挂 入 server 插口 接收 队列 的 过 程 很 相似 。 所 以 ， 我 们 这 里 就 不 重复 了 ， 恋 者 可 以 跟前 面 
sys_connect( ) 的 代码 对 照 阅读 。 

看 完了 “无 连接 ”模式 的 报 文 接收 与 发 送 ， 我 们 再 来 看 看 “有 连接 ”模式 下 的 报 文 接收 与 发 送 。 

与 unix_dgram_recvmsg( ) 相 对 应 , Unix 域 “ 有 连接 ”模式 的 报 文 接收 是 通过 unix_stream_recvmsg( ) 
完成 的 。 这 个 函数 的 代码 也 在 af_unix.c H: 


[sys_socketcall( ) > sys recvmsg( ) > unix_stream_recvmsg( )] 


1149 static ini unix stream recvmsg (struct socket *sock, struct msghdr *msg, 
int size, 

1500 int flags, struct scm cookie *scm) 

1500 { 

1502 struct sock *sk = sock->sk; 

1503 struct sockaddr un *sunaddr-msg-?msg name; 

1504 int copied = 0; 

1505 int check creds = 0; 

1506 int target; 

1507 int err = 0; 

1508 long timeo; 

1509 

1510 err = -EINVAL; 

1511 if (sk >state !- TCP ESTABLISHED) 

1512 goto out; 

1513 

1514 err = —EQPNOTSUPP; 

1515 if (flags&MSG_OOB) 

1516 goto oul; 

1517 

1518 target = sock rcvlowat(sk, flags&MSG WAITALL, size); 

1519 timeo = sock revtimeo(sk, flags&MSG DONTWAIT) ; 
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1520 
1521 msg->msg_namelen = Q; 
1522 


以 前 讲 过 ,“ 无 连接 ”模式 的 插口 是 “无 状态 ”的 ， 而 “有 连接 ”模式 的 插口 则 是 “有 状态 ”的 ， 
其 sock 结构 中 的 state 就 是 用 来 实现 :种 “有 限 状态 机 ”。 所 以 这 里 要 检查 对 方 插口 是 否 处 于 可 以 接收 
数据 报 文 《而 不 是 连接 请 求 ) 的 状态 ， 实 际 上 就 是 要 检查 连接 是 否 已 经 建立 好 。 

以 前 我 们 也 讲 过 ,“ 有 连接 ”模式 的 通信 支持 所 谓 “编外”， 即 OOB 报 文 的 传递 ， 这 种 报 文 在 传递 
中 具有 较 高 的 优先 级 ， 但 是 ， 那 只 是 就 一 般 而 言 ， 它 实际 上 起 为 网 络 环境 ， 特 别 是 速度 比较 慢 的 网 络 
环境 而 设计 的 。 对 Unix 虞 的 插口 来 说 , 收发 双方 都 在 同一 台 机 器 上 ,实际 上 并 没有 这 种 需要 , 所 以 Unix 
域 的 “有 有 连接 ” 搬 口 并 不 支持 这 种 报 文 。 

调用 参数 中 的 size 表示 接收 缓冲 区 的 大 小 ， 也 就 是 想 晓 接 收 的 字 节 数 。 如 前 所 述 ,“ 有 连接 ”模式 
的 接收 是 跨越 报 文 边界 的 。 我 们 以 前 曾 通过 一 个 例子 来 说 明 ， 当 接收 队列 中 有 两 个 报 文 ， 而 第 一 个 报 
文中 的 数据 并 没有 将 接收 缓冲 区 填 满 时 ， 就 会 继续 从 第 二 个 报 文中 读 取 数据 。 可 是 ， 当 时 我 们 没有 进 
一 步 说 时 ， 如 果 队 列 中 只 有 一 个 报 文 ， 而 又 不 能 将 接收 缓冲 区 填 满 的 话 ， 堵 又 当 如 何 ? 这 时 候 接收 进 
程 是 继续 等 竺 新 报 文 的 到 来 ， 还 是 返回 一 个 上 只 是 部 分 填 满 的 缓冲 区 ? 现在 就 要 回答 这 个 问题 了 。 这 里 
FES A abe target， 就 是 表 示 对 数据 晤 的 最 低 要 求 。 如 果 接 收 队 列 中 已 经 没有 报 文 了 ,但 是 已 
经 接收 到 缓冲 区 中 的 字 节 数 还 低 于 这 个 最 低 要 求 ， 那 就 要 睡眠 等 待 ， 和 否则 就 返回 了 《虽然 不 无 遗憾 )。 
通常 ， 这 个 最 低 要 求 是 1。 但 是 接收 进程 可 以 在 参数 flags 中 设置 一 个 MSG_WAITALL， 表 示 “ 不 达 目 
的 决 不 收兵 ”。 所 以 在 1518 行 中 通过 sock_revlowat( ) 决 定 这 个 数值 ， 然 后 设置 当前 的 目标 target. 





[sys_socketcall( ) > sys recvmsg( ) > unix, stream recvmsg( ) > sock rcvlowat( )] 


1254 static inline int sock rcvlowat (struct sock *sk, int waitall, int len) 
1255 { 

1256 return (waitall ? len : min(sk-^rcvlowat, len)) ? : 1; 

1257  ) 


为 一 方面 ， 也 要 通过 sock revtimeo( ) 确 定 对 发 送 过 程 的 时 间 限 制 ， 这 我 们 已 经 在 前 面 看 到 过 了 了。 
再 继续 往 下 看 : 


[sys socketcall( ) > sys recvmsg( ) > unix, stream, recvmsg( )] 


1523 /* Lock the socket to prevent queue disordering 
1524 * while sleeps in memcpy tomsg 

1525 */ 

1526 

1527 down (&sk->protinfo. af_unix. readsem) ; 
1528 

1529 do 

1530 { 

1531 int chunk; 

1532 struct sk buff *skb; 

1533 


- 90 . 


第 7 章 ”基于 socket 的 进程 问 通信 


1534 skb-skb dequeue(&sk-^receive queue); 

1535 if (skb--NULL) 

1536 { 

1537 if (copied >= target) 

1538 break; 

1539 

1540 /* 

1541 * POSIX 1003. 1g mandates this order. 
1542 */ 

1543 

1544 if ({err = sock error(sk)) !- 0) 

1545 break; 

1546 if (sk->shutdown & RCV SHUTDOWN) 

1547 break ; 

1548 err = -EAGAIN; 

1549 if (!timeo) 

1550 break; 

1551 up (&sk—>protinfo. af_unix. readsem) ; 
1552 

1553 timeo = unix stream data wait(sk, timeo); 
1554 

1555 if (signal pending(current)) { 

1556 err = sock intr errno(timeo); 

1557 goto out; 

1558 } 

1559 down (&sk->protinfo. af_unix. readsem) ; 
1560 continue; 

1561 } 

1562 

1563 if (check creds) { 

1564 /* Never glue messages from different writers */ 
1565 if (mememp(UNIXCREDS(skb), &scm—>creds, sizeof (scm->creds)) != 0) { 
1566 skb queue head(&sk-^receive queue, skb); 
1567 break; 

1568 j 

1569 ) else 1 

1570 /* Copy credentials */ 

1571 scm-»creds = *UNIXCREDS (skb) ; 

1572 check creds - 1; 

1573 j 

1574 

1575 /* Copy address just once */ 

1576 if (sunaddr) 

1577 { 

1578 unix_copy_addr (msg, skb->sk) ; 

1579 sunaddr = NULL; 

1580 } 

1581 
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1582 
1583 
1584 
1585 
1586 
1587 
1588 
1589 
1590 
1591 
1592 
1593 
1594 
1595 
1596 
1597 
1598 
1599 
1600 
1601 
1602 
1603 
1604 
1605 
1606 
1607 
1608 
1609 
1610 
1611 
1612 
1613 
1614 
1615 
1616 
1617 
1618 
1619 
1620 
1621 
1622 
1623 
1624 
1625 
1626 
1627 
1628 
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chunk = min(skb->len，size) ; 
if (memepy toiovec(msg-?msg iov, skb->data, chunk)) { 
skb queue head (&sk->receive queue, skb); 
if (copied == 0) 
copied = -EFAULT; 
break; 
} 
copied += chunk; 
size — chunk; 


/* Mark read part of skb as used */ 
if (!(flags & MSG PEEK)) 
{ 

skb pull(skb, chunk); 


if (UNIXCB(skb). fp) 
unix detach fds(scm, skb); 


/* put the skb back if we didn’t use it up.. */ 
if (skb->len) 
{ 
skb_queue_head(&sk->receive queue, skb): 
break; 


} 
kfree skb(skb) ; 


if (sem->fp) 
break; 
} 
else 
{ 
/* It is questionable, see note in unix dgram recvmsg. 
*/ 
if (UNIXCB(skb). fp) 
scm-^fp = sem fp dup(UNIXCB(skb). fp) ; 


/* put message back and return */ 
skb queue head (&sk->receive queue, skb): 
break; 


) 


} while (size): 


up (&sk-^protinfo.af unix. readsem) ; 
out: 
return copied ? : err; 


第 7 章 ， 基 于 socket 的 进程 间 通 信 

读者 已 经 看 到 ， 这 里 的 主体 是 一 个 do while 循环 。 在 循环 中 ， 每 次 从 接收 队列 中 摘 下 一 个 sk. buff 
结构 ， 然 后 就 从 报 文中 恋 取 数据 和 附加 信息 ， 直 从 缓冲 区 已 经 填 满 〈size BAT 0); 或 者 接收 队列 中 
已 经 没有 报 文 ， 而 接收 的 最 低 要 求 又 已 满足 ( 见 1538 行 )。 如 果 缓 冲 区 已 经 填 满 而 报 文 中 尚 有 数据 剩余 
则 将 剩余 部 分 退回 接收 队列 (1603 行 )， 以 备 下 一 次 再 米 继续 接收 。 友 之 ， 如 果 缓 冲 区 未 满 而 接收 队 诛 
中 已 经 没有 报 文 ， 则 视 最 低 要 求 是 否 已 经 满足 出 决定 是 睡眠 等 待 还 是 返回 。 这 整个 过 程 涉及 队 刻 操作 ， 
所 以 不 允许 受到 打扰 。 同 时 ， 所 需 的 时 间 义 相对 较 长 ， 不 能 单纯 地 靠 加 锁 《spin_lock〉 米 保护 ， 所 以 
需要 通过 内 核 信号 量 加 以 保护 ， 这 个 内 核 信 号 量 束 在 口 标 插口 的 sock Wf C. 1527. 1551. 1559 
以 及 1625 行 )。 

循环 体 中 所 训 用 的 函数 以 及 其 他 各 种 “要 索 ” 大 部 分 都 已 经 谋 前 面 出 现 过 ， 所 以 我 们 基本 | 把 这 
一 段 代 码 留 给 读 省 作为 练习 ， 只 是 对 其 中 的 几 个 函数 及 当量 略 作 说 明 。 

首先 ，inline ed skb_dequeue( ) 从 给 定 队 列 〔( 在 这 时 是 插口 的 接收 队 刚 〉 的 及 端 摘 下 一 个 报 文 ， 
El sk buff Magee (X, 1534 行 )»。 如 果 调 川 参数 flags 中 的 MSG_PEEK 为 1， 则 在 从 报 义 中 读 取 了 数 
据 和 附加 信息 以 后 要 通过 skb_queue_head( ) 将 已 经 脱 链 的 报 文 退还 到 接收 队列 中 的 前 病 ( 见 1620 行 )。 
要 注意 的 是 ， 这 种 “ 偷 看 ”以 一 个 报 文 为 限 。 也 就 是 说 ， 不 管 报 文 缓冲 区 多 大 ， 也 不 管 最 低 柴 求 的 数 
值 target 多 大 ,看 了 从 队列 中 摘 下 的 第 一 个 报 文 并 将 它 退 回 以 后 号 结束 了 《〈 见 1621 行 )。 这 样 的 处 理 使 
程序 得 以 简化 《和 否则 还 得 准备 下 一 个 临时 的 队列 )， 道 理 上 也 讲 得 过 去 《因为 症 “ 偷 看 ” 嘛 )。 

另外 ， 还 有 几 个 地 方 也 此 用 到 skb_queue_head( )。 一 是 当 接 收 缓冲 区 已 经 填 满 而 sk_buff 中 的 数据 
尚 有 剩余 时 〈1603 行 )， 这 里 的 skb->len 为 报 文中 剩余 的 数据 量 ，- .是 当 通 过 memcpy_toiovec( ) 将 报 
文中 的 数据 拷贝 到 用 户 党 闻 中 的 缓冲 区 时 出 了 错 〈 见 1383 一 1588 行 )。 例 如 ， 此 是 接收 进程 的 页 而 映 
射 表 中 绥 冲 区 所 在 的 页 面 为 “ 写 保 护 ” 那 当然 就 失败 了 ， 此 时 memcpy_toiovec( )JKIFI—EFAULT, m 
TER BUB Ind 0。 个 过 这 并 不 一 定 意味 着 整个 接收 操作 的 失败 , 因为 有 可 能 在 此 之 前 已 经 成 功 地 接收 了 c 
些 数据 。 所以， 此 时 此 看 变量 copied 的 数值 ， 它 反映 着 山 经 将 多 少数 据 描 贝 到 了 用 户 空间 。 还 有 -种 
情况 ， 就 是 接收 缓冲 区 尚未 填 满 ， 所 以 就 企图 从 队 你 中 的 下 个 报 文中 再 取 一 些 数 据 ， 可 是 却 发 现 这 
下 一 个 报 文中 的 车 份 信息 与 前 一 个 中 的 木 闻 ， 也 就 是 说 下 :个 报 文 是 来 自 另 一 个 发 送 进程 〈 见 1563~ 
1568 行 )。 在 这 种 情况 上， 当然 不 应 该 将 来 自 两 个 不 同 进 程 的 报 文 “粘贴 ” 在 一 起 ， 所 以 也 要 把 下 个 
报 文 退还 到 接收 队列 中 。 

读者 也 许 感 钙 奇怪 ， 既 然 赴 “有 连接 ”模式 ， 那 就 只 有 通过 已 经 建立 了 连接 的 打 口 才能 发 送 报 文 ， 
怎么 又 可 能 会 有 来 白 其 他 进程 的 报 文 呢 ? 其 实 很 简单 ， 连 接 是 建立 在 两 个 插口 之 间 ， 而 不 是 册 个 进 征 
之 间 的 。 拥 有 有 已 经 建立 好 连接 的 插口 的 进程 ， 既 可 以 fork ) 出 若干 个 子 进程 ， 也 可 以 将 对 这 个 插口 的 
访问 通过 sendmsg ) 授 权 给 夯 一 个 进程 。 

接收 了 一 个 报 文 并 读 取 了 所 载 送 的 信息 以 后 ， 要 通过 kfree_skb( ) 释 放 报 文 的 缓冲 区 (1607 行 )， 这 
A inline 汞 数 的 代码 在 include/linux/skbuff.h 中 : 


[sys_socketcall{ ) > sys recvmsg( ) > unix_stream_recvmsg( ) > kfree_skb( )] 


209 /* 

210 * |f users--l, we are the only owner and are can avoid redundant 
211 * atomic change. 

212 */ 

213 

214 (eK 
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215 * kfree skb - free an sk_buff 
216 * @skb: buffer to free 


217 * 

218 * Drop a reference to the buffer and free it if the usage count has 
219 * hit zero. 

220 */ 

221 

222 static inline void kfree_skb(struct sk_buff *skb) 

223- $ 

224 if (atomic read(&skb->users) == 1 || atomic dec and test (&skb .>users) ) 
225 __kfree_skb(skb) ; 

226 } 


iX!H — kfree skb( ) 的 代码 在 net/core/skbuff.c F: 
[sys_socketcall( ) > sys recvmsg( ) > unix stream recvmsg( ) > kfree skb( ) > __kfree_skb¢ )] 


272 void | kfree skb(struct sk buff *skb) 


27% ^ 

214 if (skb— list) { 

215 printk (KERN WARNING "Warning: kfree skb passed an skb still ^ 
216 ^on a list (from Xp). m^, NET CALLER (skb)) ; 
271 BUG( ) ; 

278 } 

279 

280 dst release(skb-^dst); 

281 if(skb-»destructor) | 

282 if (in irqi3) 1 

283 printk(KERN WARNING "Warning: kfrce skb on hard IRQ %p\n’, 
284 NET. CALLER (skb) ) ; 

285 } 

286 skb—->destructor (skb) ; 

287 } 

288 #ifdef CONFIG NETFILTER 

289 nf conntrack put (skb—>nfct) ; 

290 #Hendif 

29] skb headerinit(skb, NULL, 0); /* clean state */ 

292 kfree skbmem(skb); 

203  ] 


j^ eR BLE ARER. HE HUC BAR Me ER CR I ERE HL de ERU RER: 
Un sk buff 结构 中 的 函数 指针 destructor 7g dE 0, ub X226 HX GA XX. BA, RES 
unix stream recvmsg( )， 这 个 指针 是 什么 呢 ? SMA RAAB, KE sock_wfree( )， 是 由 发 送 报 文 的 
一 方 安排 好 了 的 。 

最 后 ， 就 是 “有 连接 ”模式 的 报 文 发 送 了 ， 这 是 由 af_unix.c 中 的 函数 unix_stream_sendmsg( ) 完 成 
的 。 
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[sys. socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > unix_stream_sendmsg( )] 


1281 static int unix stream sendmsg (struct socket *sock, struct msghdr *msg, int len, 
1282 struct scm cookie *scm) 

1283 { 

1284 struct sock *sk = sock->sk; 

1285 unix socket *other = NULL; 

1286 struct sockaddr un *sunaddr-msg-?msg name; 

1287 int err, 8izc; 

1288 struct sk buff *skb; 

1289 int limit-0; 

1290 int sent-0; 

1291 

1292 err - -EOPNOTSUPP; 

1293 if (msg->msg flags&MSG_OOB) 

1294 goto out err; 

1295 

1296 if (msg->msg_namelen) | 

1297 err = (sk-^state--TCP ESTABLISHED ? -EISCONN : -EOPNOTSUPP) ; 
1298 goto out err; 

1299 } else { 

1300 sunaddr = NULL; 

1301 err = —ENOTCONN: 

1302 other = unix peer get (sk); : 
1303 if (lother) 

1304 goto out_err; 

1305 } 

1306 

1307 if (sk->shutdown&SEND_SHUTDOWN) 

1308 goto pipe err; 

1309 


如 前 所 述 ， 在 Unix 域 中 虽然 是 “有 连接 ”模式 也 不 支持 OOB 报 文 。 并 且 除 MSG_DONTWAIT 和 
MSG_NOSIGNAL 以 外 所 有 的 标志 位 部 不 允许 使 用 。 另 一 方面 ， 既 然 是 “有 连接 ”模式 的 上 发送， 就 不 
允许 指定 接收 方 地 址 。 通过 unix_peer_get( ) 取 得 对 方 插口 的 sock 结构 指针 other 以 后 , 这 里 并 没有 检验 
它 是 否 还 活着 ， 以 及 是 否 忆 经 关闭 了 报 文 接收 。 这 是 为 什么 昵 ? BüuxG gd MARIETTE E 
通过 一 个 循 坏 来 完成 的 ， 对 这 两 个 条 件 的 检查 在 每 次 循环 出 者 要 进行 ， 而 不 是 只 检查 一 次 。 不 过 ， 倒 
是 要 先 检查 一 下 发 送 方 插口 本 身 是 否 已 经 关闭 报 广 发送 〈 见 1307 行 )。 再 往 下 看 : 


[sys_socketcall( ) > sys sendmsg( ) > sock_sendmsg( ) > unix_stream_sendmsg( )] 


1310 while(sent < len) 

1311 { 

1312 /* 

1313 * Optimisation for the fact that under 0.01% of X messages typically 
1314 * need breaking up. 
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1315 &/ 
1316 
1317 size=len-sent; 
1318 
1319 /* Keep two messages in the pipe so it schedules better */ 
1320 if (size > sk->sndbuf/2 - 16) 
1321 size = sk->sndbut/2 - 16; 
1322 
1323 /* 
1324 * Keep to page sized kmalloc( )'s as various people 
1325 * have suggested. Big mallocs stress the vm too 
1326 * much. 
1327 * / 
1328 
1329 if (size > PAGE SIZE- 16) 
1330 limit = PAGE STZF-16; /* Fall back to a page if we can’t 
grab a big buffer this instant */ 
1321 else 
1332 limit = 0; /* Otherwise just grab and wait */ 
1333 
1334 /* 
1335 * Grab a buffer 
1336 &/ 
1337 a 
1338 skb = sock_alloc_send_skb(sk, size, limit, 
msg->msg flags&MSG DONTWAIT, &err); 
1339 
1340 if (skb--NULL) 
1341 goto out err; 
1342 
1343 /* 
1344 * If you pass two values to the sock alloc send skb 
1345 * it tries to grab the large buffer with GFP BUFFER 
1346 * (which can fail easily), and if it fails grab the 
1347 * fallback size buffer which is under a page and will 
1348 * succeed. [Alan] 
1349 &/ 
1350 size = min(size, skb tailroom(skb)); 
1351 
1352 memcpy (UNIXCREDS (skb), &scm->creds, sizeof(struct ucred)); 
1353 if (sem fp) 
1354 unix attach fds(scm, skb); 
1355 


1356 if ((err = memcpy_fromiovec(skb_put (skb, size), msg->msg_iov, size)) !- 0) { 
1357 kfree_skb (skb) ; 

1358 goto out_err; 

1359 } 

1360 
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1361 unix state rlock(other); 

1362 

1363 if (other->dead |i (other >shutdown & RCV SHUTDOWN)) 
1364 goto pipe err free; 

1365 

1366 skb queue tail(&other-»reccive queue, skb); 
1367 unix state runlock (other); 

1368 other->data ready(other, size); 

1369 sentt-size; 

1370 } 

1371 sock put (other) ; 

1372 return sent; 

1373 

1374 pipe err free: 

1375 unix state runlock(other); 

1376 kfree skb(skb); 

1377 pipe err: 

1378 if (sent--0 && !(msg-^msg flags&MSG NOSIGNAL)) 
1379 send sig(SIGPIPE, current, 0) ; 

1380 err = -EPIPE; 

1381 out err: 

1382 if (other) 

1383 sock put (other) ; 

1384 return sent ? : err; 

13885  ] 


为 什么 “有 连接 ”模式 的 报 文 发 送 查 通过 一 个 循环 来 完成 ， 而 在 “无 连接 ”模式 中 就 不 需要 循环 
E? 这 又 跟 一 者 的 语义 有 有关 。 

“无 连接 ”模式 是 面向 报 文 的 ， 必 须 维 持 报 文 的 边界 。 用 户 《 进 程 )》 父 下 来 一 块 数据 ， 不 管 多 大 
(只 要 不 超过 极限 ) 也 旨 在 一 个 报 文中 发 送出 去 。 至 于 用 户 交 下 来 的 数据 块 大 小 是 和 理 合 埋 ， 炒 是 用 户 
的 事 。 如 果 用 户 交 下 来 的 数据 块 太 大 ， 则 立即 失败 返 操 |。 

而 “有 连接 ”模式 就 不 同 了 。“ 有 连接 ”模式 是 面向 字 节 流 的 ， 所 以 可 以 在 发 送 方 将 “个 大 报 文 分 
割 成 若干 较 小 的 报 文 来 发 送 。 这 样 比较 有 利于 改善 报 文 传递 的 效率 ， 也 减轻 了 用 户 的 负 护 。 卉 么 ， 如 
果 用 户 交 下 的 报 文 太 大 ， 把 它 分 割 成 多 大 才 是 合适 的 呢 ? 或 者 说 ， 多 大 的 报 文 才 需 要 分 割 呢 ? 代码 中 
把 这 个 界线 定 为 sk->sndbuf 的 一 半 (16 字 节 保 留用 十 头 部 结构 ,在 下 面 的 讨论 中 我 们 部 把 它 略 去 不 计 )， 
插口 的 sock 结构 中 有 个 参数 sndbuf， 是 可 以 通过 setsockopt( ?设置 和 改变 的 。 这 个 参数 人 丝 上 次 定 了 插 
口 在 正 带 条 件 下 可 以 占用 作为 发 送 缓冲 区 的 总 的 存储 区 大 小 。 那 么 ， 为 什么 是 这 个 值 的 一 半 呢 ? BR 
是 ， 把 它 分 成 两 半 来 用 有 利 十 提高 效率 。 这 样 ， 就 叮 以 使 得 当 发 送 方 在 准备 后 “ 半 时 ， 接 收 方 已 经 在 
接收 前 一 半 了 。 通 过 对 两 个 缓冲 区 的 循环 使 用 和 流通 ， 就 可 以 形成 一 个 “流水 线 ”， 从 出 提 高 效 举 。 主 
网 络 环 境 下 或 者 发 送 方 和 接收 方 在 两 个 不 同 处 理 器 上 运行 时 ， 这 种 效果 就 尤为 突出 。 可 是 ， 有 了 时候 由 
于 系统 中 资源 使 用 和 周转 的 限制 ， 这 个 值 的 一 半 也 还 是 太 大 人 而 一 时 分 配 不 到 所 需 的 缓冲 区 ， 这 时 候 蕊 
ASME? 当然 可 以 睡眠 等 待 ， 但 是 更 好 的 办 法 是 退 而 求 其 次 ， 分 配 块 再 小 一 些 的 缓冲 区 ， 这 样 吕 然 
更 有 利于 资源 的 周转 和 在 这 种 “逆境 ”下 效率 的 提高 。 不 过 ， 小 到 -个 页 面 以 下 就 不 合适 了 ， 因 为 以 
页 面 为 单位 分 配 空间 比较 简单 ， 效 率 也 较 高 。 这 就 是 代码 第 1330 行将 变量 limit 设置 成 (PAGE_SIZE 
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一 16) 的 道理 。 这 个 变量 的 作用 ， 要 与 sock alloc send. skb ) 的 代码 结合 起 来 看 才 清 楚 。 这 个 函数 的 代 
码 在 net/core/sock.c 中 : 


[sys_socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > unix_stream_sendmsg( ) > sock_alloc_send_skb( )] 


741 /水 

742 * Generic send/receive buffer handlers 

743 */ 

144 

145 struct sk buff *sock alloc send skb (struct sock *sk, unsigned long size, 
746 unsigned long fallback, int noblock, int *errcode) 
747 { 

748 int err: 

749 struct sk buff *skb; 

750 long timeo; 

751 

752 timeo = sock sndtimeo(sk, noblock); 

753 

754 while (1) ( 

755 unsigned long try_size = size; 

756 

757 err = sock error(sk); 

758 if (err != 0) 

759 goto failure; 

760 

761 /* 

762 * We should send SIGPIPE in these cases according to 
763 * 1003. lg draft 6.4. If we (the user) did a shutdown( ) 
764 * call however we should not. 

765 * 

766 * Note: This routine isnt just used for datagrams and 
767 * anyway some datagram protocols have a notion of 

768 * close down. 

769 */ 

770 

77] err = -EPIPE; 

772 if (sk-^shutdown&SEND SHUTDOWN) 

773 goto failure: 

774 

775 if (atomic read(&sk-^wmem alloc) € sk->sndbuf) | 

716 if (fallback) ( 

TTT /* The buffer get won't block, or use the atomic queue. 
778 * It does produce annoying no free page messages still. 
779 */ 

780 skb = alloc skb(size, GFP BUFFER) ; 

781 if (skb) 

782 break; 
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0 


} 


try size = fallback; 


} 
skb = alloc skb(try size, sk-^allocation); 
if (skb) 


break; 
err = -ENOBUFS; 
goto failure; 


} 


/* 
* This means we have too many buffers for this socket already. 


*/ 


set bit (SOCK_ASYNC_NOSPACE, &sk—>socket->f lags) ; 
set bit (SOCK NOSPACE, &sk->socket—>flags) ; 
err = -EAGAIN; 
if (!timeo) 
goto failure; 
if (signal pending (current) ) 
goto interrupted; 
timeo = sock wait for wmem(sk, timeo); 


skb set owner w(skb, sk); 


return skb; 


interrupted: 

err = sock intr errno(timeo); 
failure: 

*errcode = err; 

return NULL; 


这 个 函数 先 试 着 按 size 大 小 分 配 空间 (注意 755 行将 try. size 设置 成 size)， 分 配 时 的 优先 级 别 为 


GFP BUFFER。 如 果 行 ， 就 万 事 大 十 了 。 不 行 的 话 ， 就 要 看 参数 fallback。 要 是 fallback 为 0， 那 就 或 
者 通过 sock wait. for wmem( ) 睡 眠 等 待 , 或 者 失败 返回 , 具体 取决 十 参数 noblock。 可 号 ， #4 fallback 
非 0 的话 ， 那 就 再 试 着 按 fallback 的 大 小 再 分 配 次 ,这 -次 分 配 的 优先 级 章 则 改 成 sk-»allocation, 通 
常 是 比 GFP BUFFER 高 一 些 〈 事 实 上 ， 在 sock_init_data( ) 中 将 这 个 优先 级 设置 成 GFP_ KERNEL)， 而 
fallback 则 通常 比 size 更 小 。 这 样 ， 第 二 次 分 配 成 功 的 希望 就 相当 大 了 。 当 然 ， 还 有 可 能 后 失 败 ， 才 网 
要 睡眠 等 待 或 大 败 返 回 了 。 换 言 之 ， 当 fallback 为 0 时 的 空间 分 配 是 德 性 的 ， 成 就 成 ， 不 成 号 不成; MU 
fallback 为 非 0 时 的 空间 分 配 则 是 软 性 的 ， 能 按 size 的 大 小 分 配 最 好 ， 不 成 就 退 而 求 其 次 ， 按 fallback 
的 大 小 进行 分 配 。 具 体 的 缓冲 区 分 本 由 sock_wmalloc( ) 进 行 ， 其 代码 也 在 sock.c H: 


[sys. socketcall( ) > sys sendmsg( ) > sock sendmsgí ) > unix stream, sendmsgí( ) 
> sock. alloc, send, skb( ) > sock wmalloc( )] 
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604 /* 

655 * Allocate a skb from the socket’s send buffer. 

656 */ 

657 struct sk buf( *sock wmalloc(struct sock *sk, unsigned long size, 
int force, int priority) 

658 { 

659 if (force || atomic_read(&sk->wmem_alloc) < sk->sndbuf) | 

660 struct sk buff * skb = alloc skb(size, priority); 

661 if (skb) | 

662 skb set owner w(skb, sk): 

663 return skb; 

664 ) 

665 } 

666 return NULL: 

667  ] 


插口 的 sock 结构 中 有 个 整数 wmem_alloc, WRAN F ds FEE ERE ERG “ay Hc HD AY, 
功 时 就 由 这 里 的 skb_set_owner_w( ) 将 分 配 得 的 实际 人 小 加 到 wmem alloc 中 ， TE CR] MMA ak FE < 
IRS POR, AAT BEANE A, HAITE include/net/sock.h 中 ， 


[sys_socketcall( ) > sys sendmsg( ) > sock_sendmsg( ) > unix stream sendmsg( ) > sock alloc send skb() 
> sock wmalloc( ) > skb set owner. w( )] 


1125 /* 

1126 * Queue a received datagram if it will fit. Stream and sequenced 
1127 * protocols can’t normally use this as they need to fit buffers in 
1128 * and play with them. 

1129 * 

1130 * Inlined as it's very short and called for pretty much every 

1131 * packet ever received, 

1132 */ 

1133 


1134 static inline void skb set owner w(struct sk buff xskb, struct sock *sk) 
1135 { 


1136 sock hold(sk); 

1137 skb->sk = sk; 

1138 skb->destructor = sock wfree; 

1139 atomic_add(skb->truesize, &sk—>wmem alloc) - 
1140} 


注意 这 里 将 sk. buff EJ P BURGI ET destructor 设置 成 指向 sock. wfree( )。 这 样 ， 报 文 的 接收 方 
在 释放 这 个 数据 结构 时 就 会 先 调用 这 个 函数 。 
站 到 unix stream sendmsg( ) 的 代码 中 的 第 1338 行 ， 这 里 的 调用 参数 limit 就 是 上 -而 的 fallback. 所 
以 ， 当 size 小 于 “个 页 面 时 limit 为 0， 此 时 对 缓冲 区 分 配 的 要 求 是 硬性 的 ， 因 为 不 能 比 SUCHE ti) 
fo Hi, “size 大 丁 一 个 页 面 时 ， 则 limit 的 大 小 为 一 个 页 而 ， 此 时 就 可 以 “讨价还价 ”了 ，。 读者 个 
妨 回 过 去 看 一 上 unix_dgram_sendmsg( ) 的 代 信 ， 那里 对 绥 冲 区 分 配 的 楼 求 起 便 性 的 ， 这 起 因为 “万达 
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557 ER ”基于 socket 的 进程 问 通信 
FE” 模式 的 报 文 发 送 不 允许 改变 报 文 的 边界 。 通 过 sook_alloc_send_skb( ) 分 配 了 缓冲 区 以 后 ， 缓 冲 区 .的 
实际 大 小 可 以 调用 skb_tailroom( ) 来 获取 。 

从 这 里 往 下 的 代码 ， 读 者 应 该 已 经 很 熟悉 了 。 沾 过 ， 不 知 读 洛 看 了 以 后 是 否 感觉 到 有 些 异 样 ? 我 
们 在 unix_stream_connect( ):| All unix_dgram_sendmsg( HAKKA, 住 将 报 文 持 入 接收 队列 之 前 要 测试 
队列 长 度 ， 如 果 其 长 度 达 到 了 某 个 限额 就 要 睡眠 等 待 。 可 是 ， 在 这 里 却 没 有 看 到 。 这 是 为 什么 ? 难道 
“有 连接 ”模式 的 报 文 发 送 就 不 存在 这 个 问题 吗 ? 是 的 ，Unix 域 “ 有 连接 ”模式 的 报 文 发 送 确实 不 存 
在 使 对 方 的 接收 队列 过 长 的 问题 。 我 们 知道 ， 连 接 是 建立 于 捅 口 之 间 ， 而 不 是 进程 之 间 。 同 时 ， 我 们 
已 经 看 到 ， 个 插口 可 以 用 作 发 送 缓冲 区 的 空间 大 小 是 有 限制 的 。 当 发 送 方 插口 将 缓冲 区 用 光 【 取 决 
于 其 sock 结构 中 的 sndbuf)， 也 即 全 部 挂 入 到 接收 方 质 口 的 接收 队列 中 去 以 后 ， 就 再 也 分 配 不 到 缓冲 
K, 而 只 好 在 sock alloc send, skb( ) 中 睡眠 等 待 了 。 等 待 什么 呢 ? 等 待 接收 方 进程 从 队列 中 接收 报 文 而 
将 缓冲 区 释放 出 米 。 那 时 候 ， 接 收 方 就 会 在 释放 报 文 的 sk buff 结构 是 通过 其 函数 指针 调用 
sock wfree( )， 其 代码 仁 net/core/sock.c F: 


[sys socketcall( ) > sys recvmsg( ) > unix, stream, recvmsg( ) > kfree skb( ) > .. kfree skb( ) 
> sock wfree( )] 


631 /* 

632 * Write buffer destructor automatically called from kfree_skb. 
633 */ 

634 void sock wfree(struct sk buff *skb) 

635 | 

636 struct sock *sk = skb-?sk; 

637 

638 /* In case it might be waiting for more memory. */ 
639 atomic sub(skb-^truesize, &sk-»wmem alloc); 

640 sk->write space(sk); 

641 sock put (sk); 

642  ] 


这 里 调整 了 sk->wmem_alloc 的 数值 ， 因 为 发 送 方 插口 实际 占用 的 缓冲 区 减少 了 。 而 sock 结构 中 
的 另 一 个 函数 指针 write space 则 在 创建 插口 时 〔〈 见 unix createl( ) 的 代码 ，482 fr) 设置 成 指 加 
unix write space( )， 这 个 藉 数 将 可 能 因 分 配 不 到 报 文 缓 神 区 而 将 正 企 唾 豚 等 待 的 发 送 方 进程 唤醒 ， 其 
WUE net/unix/af_unix.x 中 : 


[sys socketcall( ) > sys recvmsg( ) > unix stream recvmsg( ) > kfree skb( ) > __ktree_skb( ) 
> sock_wfree( ) > unix_write_space( )] 


299 static void unix write space (struct sock *sk) 


300 d 

301 read lock(&sk ?callback lock); 

302 if (unix writable(sk)) { 

303 if (sk->sleep && waitqueue activc(sk-^sleep)) 
304 wake up interruptible(sk-5sleep); 

305 sk wake async(sk, 2, POLL OUT); 
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306 } 
307 read unlock(&sk->callback lock); 
308 } 


当 睡 眠 中 的 发 送 方 进程 被 唤醒 ， 再 次 试图 分 配 报 文 缓冲 区 时 ， 就 能 成 功 了 。 

最 后 还 要 强调 指出 ， 发 送 方 /接收 方 的 关系 与 client/server 两 方 的 关系 完全 起 两 码 事 。 前 者 是 对 一 个 
具体 的 报 文 而 言 的 ， 而 后 者 仪 与 连接 的 建立 有 关 ， 一 出 建立 了 连接 以 后 ， 任 付 …- 方 都 可 以 是 一 个 报 文 
的 发 送 方 。 


7.8 ”插口 的 关闭 


插 册 的 关闭 ， 妈 撤销， 起 道 过 文件 系统 界 而 的 close 系统 调用 完成 的 。 读 者 不 妨 回想 :- 下 前 面 讲 过 
的 数据 结构 之 间 的 联系 ， 看 看 从 播 口 的 打开 文件 号 和 当前 进程 的 task, struct. 结构 开始 ， 怎 样 才能 找到 
拓 口 的 文件 操作 跳 转 表 〈 数 据 结构 socket_file_ops )。 该 结构 中 的 限 数 指针 release 指向 sock_close( ), 
其 代码 在 net/socket.c 'H: 


[sys_close( ) > filp_close( ) > fput( ) > sock close( )] 


692 int sock_close(struct inode *inode, struct file *filp) 


693 { 

694 /* 

695 * It was possible the inode is NULL we were 
696 * closing an unfinished socket. 

697 */ 

698 

699 if (linode) 

700 { 

701 printk (KERN DEBUG “sock close: NULL inode\n”): 
702 return 0; 

703 } 

704 sock fasync(-l, filp, 0); 

705 sock_release (socki_lookup (inode) ) ; 

706 return Q; 

707 ] 


首先 十 对 插口 的 fasync_list 的 处 理 。 我 们 在 讲述 connect( ) 时 讲 到 过 ，server 方 进 程 可 以 异步 地 等 
待 来 自 client 插口 的 连接 请 求 。 实 际 上 ,连接 请 求 只 是 一 个 特例 ， 异 步 接收 同样 也 适用 于 普通 报 文 的 接 
收 。 在 socket 结构 中 有 个 fasync_list 队 州 ， 如 果 想 要 在 一 个 server 插口 上 异步 等 待 连接 请 求 ， 或 者 从 
一 个 插口 异步 地 接收 报 文 ， 就 可 以 通过 ioctl( ) 系 统 调用 分 配 一 个 fasync_struct 数据 结构 ,并 将 其 挂 入 插 
已 的 fasync list 队列 。 现 在 插口 既然 要 撤销 了 ， 当 然 要 把 fasync_list 队列 中 的 fasyne_struct 结构 全 都 释 
tH. BÉ sock fasync( ) 的 代码 也 在 socketc 中 ， 由 于 代码 比较 简单 ， 我 们 就 不 详 述 了 。 接 着 ， 看 
sock release( )， 其 代码 也 在 socket.c F: 


- 102. 


第 7 章 ET socket 的 进程 间 通 信 


[sys_close( ) > filp close( ) > fput( ) > sock_close( ) > sock release( )] 


416 fk 

ATT * sock release - close a socket 

478 * @sock: socket to close 

479 * 

480 * The socket is released from the protocol stack if it has a release 
48] * callback, and the inode is then released if the socket is bound to 
482 * an jnode not a file. 

483 */ 

484 

485 void sock release (struct socket *sock) 

4866 f 

487 if (sock-^ops) 

488 sock-^ops-^release(sock); 

489 

490 if (sock-^fasync list) 

491 printk (KERN ERR "sock release: fasync list not empty! Wn^); 
492 

493 sockets in use[smp processor. id( )]. counter-~; 

494 if (!sock->file) { 

495 iput (sock->inode) ; 

496 return; 

497 } 

498 — sock->f ile=NULL; 

499 } 


用 十 Unix BO LPS proto ops 结构 ， 即 unix stream, ops 和 unix_dgram_ops， 其 中 的 release Tí 
针 都 指向 unix_release( )， 其 代码 在 af_unix.c PATH: 


[sys_close( ) > filp_close( ) > fput( ) > sock close( ) > sock release( ) > unix release( )] 


525 static int unix release (struct socket *sock) 


5206 d 

521 unix socket *sk - sock-?sk; 

528 

529 if (!sk) 

530 return 0; 

531 

532 sock->sk = NULL; 

533 

534 return unix release sock (sk, 0); 
535 } 


函数 unix_release_sock() 的 代码 也 在 同 … 文 件 af_unix.c 上 中， 我 们 分 两 段 来 看 ; 


[sys_close( ) > filp_close( ) > fput( ) > sock. close( ) > sock release( ) > unix_release( ) 
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> unix_release_sock( )] 


353 static int unix release sock (unix socket *sk, int embrion) 
354 { 

355 struct dentry *dentry; 

356 struct vfsmount *mnt; 

357 unix socket *skpair; 

358 struct sk buff *skb; 

359 int state; 

360 

361 unix remove socket (sk); 

362 

363 /* Clear state */ 

364 unix state wlock (sk): 

365 sock orphan(sk); 

366 sk-^shutdown = SHUTDOWN MASK; 

367 dentry = sk->protinfo. af_unix. dentry; 

368 sk-»protinfo. af unix. dentry=NULL; 

369 mnt = sk->protinfo. af unix. mnt; 

370 sk->protinfo. af unix. mnt=NULL: 

311 state = sk—state; 

372 sk->state = TCP CLOSE; 

373 unix state wunlock (sk); 

374 

375 wake up interruptible all(&sk-^protinfo.af unix.peer wait); 
376 

377 skpair=unix_peer (sk); 

378 

379 if (skpair!=NULL) { 

380 if (sk-^type--SOCK STREAM) { 

381 unix state wlock (skpair): 

382 skpair-^shutdown-SHUTDOWN MASK; /* No more writes*/ 
383 if (!skb queue empty (&sk-^receive queue) || embrion) 
384 skpair->err = ECONNRESET; 

385 unix state wunlock(skpair); 

386 skpair-^state change (skpair); 

387 read lock(&skpair-?callback lock): 
388 sk wake async(skpair, 1, POLL. HUP) ; 
389 read unlock(&skpair ^callback lock); 
390 j 

391 sock put(skpair); /* It may now die */ 
392 unix peer(sk) = NULL; 

393 } 

394 


以 前 我 们 讲 过 , 内 核 中 有 个 杂 凌 表 unix_socket_table[ ], 每 个 插口 的 sock 结构 都 挂 在 杂凑 表 中 的 某 
一 个 队列 中 ， 而 Unix 域 sock 结构 中 的 protoinfo.af_unix.list 则 指向 该 队列 的 头 部 。 现 在 ， 第 -- 件 事 就 
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是 通过 unix_remove_socket( ) 将 插口 的 sock 结构 从 杂凑 表 的 队列 中 脱 链 ， 其 代 但 在 net/unix/af unix.c 
m: 


[sys. close( ) > filp close( ) > fput( ) > sock close( ) > sock release( ) > unix release( ) 
> unix release sock( ) > unix remove, socket( )] 


233 static . inline void unix remove socket (unix socket *sk) 
234 | 

235 write lock(&unix table lock); 

236 . unix remove socket (sk) ; 

237 write unlock(&unix table lock); 

238 ] 


[sys. close( ) > filp close( ) > fput( ) > sock  close( ) > sock release( ) > unix release( ) > nix release sock( ) 
> unix remove socket( ) > unix remove socket( )] 


203 static void |, unix remove socket (unix socket *sk) 


204 | 

205 unix socket *klist = sk->protinfo. af unix. list; 
206 if (list) { 

207 if (sk—>next) 

208 sk->next~>prev = sk->prev; 
209 if (sk->prev) 

210 sk->prev—>next = sk—>next; 
211 if (xlist == sk) 

212 *list = sk-»next; 

213 sk->protinfo. af_unix. list = NULL; 
214 sk-?prev = NULL; 

215 sk->next = NULL; 

216 __sock_put (sk) ; 

217 } 

218 } 


下 面 ， 就 要 通过 sock orphan( ) 改 变 sock 结构 中 的 一 些 状 态 信息 以 及 些 指针 了 Csock.h). 


[sys_close( ) > filp close( ) > fput( ) > sock_close( ) > Sock_release( ) > unix_release( ) > nix_release_sock( ) 
> unix_remove_socket( )] 


998 /* Detach socket. from process context. 

999 * Announce socket dead, detach it from wait queue and inode. 

1000 * Note that parent inode held reference count on this struct sock, 
1001 * we do not release it in this function, because protocol 

1002 * probably wants some additional cleanups or even continuing 

1003 * to work with this socket (TCP). 

1004 */ 

1005 static inline void sock orphan(struct sock *sk) 

1006 d 
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1007 write lock bh(&sk-^callback lock); 
1008 sk->dead = 1; 

L009 sk->socket = NULL; 

1010 sk->sleep = NULL; 

1011 write_unlock_bh(&sk->callback lock); 
1012. ] 


首先 就 是 把 dead 置 成 1， 表 示 这 个 插口 已 经 死亡 了 ， 我 们 在 前 面 的 一 些 函 数 中 兽 多 次 看 到 对 这 个 
状态 信息 的 检测 。 接 着 ,就 把 sock 结构 中 指向 相应 socket 结构 的 指针 设 成 了 NULL。 这 里 write. lock. bh() 
是 个 宏 操 作 ， 定 义 十 include/linux/spinlock.h +}; 


20 #define write_lock_bh (lock) \ 
do { local bh disable( ); write lock (lock): } while (0) 


MAB POLS Bl, RINT IS. 35-48 EE E— E) unix_release_sock( ) 中 通过 
unix_state_wlock( ) 加 二 的， 此 函数 的 定义 在 文件 af_unix,c HASH: 


39 #define unix state wlock(s) write lock (&(s)->protinfo. af. unix. lock) 


每 一 把 “ 锁 ”， 在 锁 上 时 都 可 以 有 两 个 状态 ， 即 “ 读 ” 和 “ 写 ”。 这 里 的 锁 是 sock 结构 中 的 
protoinfo.af_unix.lock。 注 意 ，write_lock( ) 并 不 是 “ 锁 上 防 写 ”， 而 是 “为 写 而 锁 ”。 凡 是 要 改变 sock 结 
构 中 任何 内 容 时 ， 都 要 将 这 把 锁 锁 上 全 “ 写 ” 状 态 。 同 时 ， 哪 怕 只 是 要 读 sock 结构 中 的 内 容 ， 也 得 要 
加 锁 ， 不 是 锁 至 “号 ”状态 就 是 锁 至 “ 读 ” 状 态 。 这 样 ， 只 要 有 一 个 进程 在 气 ， 其 他 的 进程 《在 不 同 
的 处 理 占 上 运行 ， 下 同 ) 就 都 不 能 读 〈 当 然 也 不 能 写 )， 而 上 只 能 在 write_lock( )BR read_lock( ) 2845 
锁 《并 不 睡眠 !)。 反 之 ， 只 要 至 少 有 一 个 进程 在 读 ， 其 他 的 进程 就 不 能 写 ， 而 具 好 在 write_lock( ) 中 等 
行 解 锁 ， 但 是 却 可 以 顺利 遂 过 read_lock( )。 只 有 这 样 ， 才 能 保证 任何 进程 莉 不 会 在 改变 内 容 的 中 途 从 
中 读 出 。 可是， 改变 sock 结构 内 容 的 过 程 往往 需要 比较 长 的 时 间 ， 而 仅仅 要 读 sk->dead 的 内 容 就 没有 
必要 等 所 有 的 改变 都 完成 ， 所 以 就 为 这 个 目的 专门 设置 了 另外 de MWE sock 结构 中 的 
callback lock. JLE mÆ sk->dead MAAN, MEDEA EETA dm, 但 是 哪 一 把 都 可 以 , 即 “ 写 ” 
状态 或 “ 读 ” 状 态 都 可 以 。 

完成 了 对 sock 结构 的 改变 以 后 ， 就 可 以 唤 醴 正在 睡眠 中 等 待 着 此 使 用 该 插口 的 进程 了 。 这 样 的 进 
程 有 两 种 ， 一 种 是 等 待 着 报 文 的 到 达 ， 另 一 种 则 是 等 待 着 将 报 文 挂 入 本 插口 的 接收 队列 中 。 这 些 进程 
做 唤 本 以 后 都 会 再 “次 检测 sk->dead， 当 发 现 这 个 插口 已 经 死亡 时 就 会 出 错 返 由。 

在 讲述 connect( ) 的 时 候 ， 读 者 已 经 看 到 在 sock 结构 中 有 个 指针 pair, TT af_unix.c 中 对 函数 
unix_peer( ) 的 定义 就 起 : 


139 Rdefine unix peer (sk) ((sk)->pair) 


已 经 建立 起 连接 的 两 个 “有 连接 ”模式 插口 互相 通过 这 个 指针 指向 对 方 的 sock 结构 。 宝 于 “无 连 

接 ” 模式 的 插口 ， 则 为 之 调用 了 connect( ) 的 插口 通过 这 个 指针 单 向 地 指向 对 方 的 sock £A. ISI, Fi 

X ”个 插口 的 这 个 指针 非 0, 则 它 就 是 对 方 插口 的 一 个 用 户 , 而 对 方 插口 的 用 户 计 数 就 包含 了 这 个 插口 ， 

所 以 要 通过 sock_put( ) 递 减 对 方 的 用 户 计数 《 见 391 行 )， 并 且 将 这 个 指针 清 0。 由 于 “有 连接 ”模式 

捅 中 的 “连接 ”是 双向 的 ， 此 时 偿 要 对 连接 的 对 方 也 作 一 些 处 理 (380—390 行 )。 和 首先 要 切断 对 方 继续 
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向 我 方 发 送 报 文 的 功能 。 其 次 ， 如 果 我 方 的 接收 队列 中 还 有 报 文 ( 伯 unix release( ) 中 调用 
unix_release_sock( ) 时 的 调用 参数 embrion 为 0)， 就 此 告知 对 方 ， 把 对 方 sock 结构 中 的 出 错 代 码 err x 
成 BCONNRESET。 这 样 ， 如 果 有 进程 正在 系统 调用 中 对 其 进行 茶 些 操作 ， 就 会 出 错 返 加 ,省 则 下 一 次 
为 对 方 插口 而 进入 系统 调用 时 也 会 出 错 返 岂 。 内 楼 代码 中 有 个 inline PAK sock_error( )， 定 义 于 
include/net/sock.h FP: 


1191 /* 

1192 * Recover an error report and clear atomically 
1193 */ 

1194 

1195 static inline int gock error (struct sock *sk) 
1196 { 

1197 int err-xchg (&sk-^err, 0) ; 

1198 return -err; 

1199  ] 


这 个 inline 函数 一 方面 将 sk-»err 的 内 容 读 入 变量 er 中 ， 一 方面 将 sk->err 清 0。 在 播 口 操作 的 - 
些 关键 函数 和 关键 路 径 上 都 安排 了 对 sock 结构 中 的 这 个 出 错 代码 的 检测 。 例 如 ， 在 
sock_alloc_send_skb( ) 的 while 循环 中 以 及 在 unix_stream_recvmsg( ) 的 do_while 循环 中 都 安排 了 这 样 的 
检测 。 

此 外 ，sock 结构 中 还 有 个 函数 指针 state_change， 在 sock 结构 初始 化 时 设置 成 指向 
sock_def_wakeup( )。 每 当 一 个 插口 的 状态 改变 时 ， 就 此 通过 这 个 指针 调用 相应 的 函数 ， 以 唤醒 可 能 正 
在 睡眠 等 待 该 插口 改变 状态 的 进程 。 现 在 ， 一 对 互相 和 连接 的 插口 中 有 一 个 已 经 关闭 了 ， 这 当然 引起 改 
一 方 的 状态 改变 ， 所 以 要 调用 这 个 函数 (386 行 )。 

最 后 , 还 要 通过 sk_wake_async( ) 向 所 有 正在 对 方 插 口上 异步 操作 的 进程 发 出 SIGIO 信号， ie) 
在 对 方 插口 上 进行 一 次 操作 ， 从 而 得 知 该 捕 口 的 状态 改变 。 

继续 往 下 看 函数 unix_release_sock( ) 代 码 的 余下 部 分 : 


[sys close( ) > filp close( ) > fput( ) > sock. close( ) > sock, release( ) > unix release( ) 
> unix release sock( )] 


395 /* Try to flush out this socket. Throw out buffers al least */ 
396 

397 while((skbzskb dequeue(&sk- receive queue)) !=NULL) 

398 { 

399 if (state--TCP LISTEN) 

400 unix release sock (skb->sk, 1); 

401 /* passed fds are erased in the kfree skb hook */ 
402 kfree skb(skb) ; 

403 } 

404 

405 if (dentry) { 

406 dput (dentry) ; 

407 mntput (mnt) ; 
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408 } 

409 

410 Sock put (sk); 

411 

412 /* ——- Socket is dead now and most probably destroyed -——- */ 
413 

414 /** 

415 * Fixme: BSD difference: In BSD all sockets connected to use get 
416 * ECONNRESET and we die on the spot. In Linux we behave 
417 * like files and pipes do and wait for the last 

418 * dereference. 

419 * 

420 * Can i we simply set sock-»err? 

421 x 

422 * What the above comment does talk about? ——ANK (980817) - 
423 */ 

424 

425 if (atomic read(&unix tot inflight)) 

426 unix gc( ); /* Garbage collect fds */ 

427 

428 return 0; 

429} 


An ART BCA SP ATARI BRM PRE. HER BEE HU THEO Bl it PRK 
kfree_skb( ) 的 代码 。 但 是 当 插口 的 状态 为 TCP_LISTEN 时 是 个 特殊 情况 ， 因为 此 时 接收 队列 中 的 报 文 
AB TERR MA BAY server 插口 创建 好 -- 个 sock 结构 ,就 等 着 server 方 进程 通过 accept( ) 为 server 
播 口 创建 一 个 新 的 socket 结构 ， 并 使 它们 互相 排 上 钧 。 现 在 server 插口 既然 撤销 了 ， 就 旧 把 所 有 这 些 
由 client 方 创建 好 的 sock 结构 也 撤销 ， 所 以 这 里 对 其 递归 调用 unix_release_sock( ). 

我 们 知道 ， 通 过 bind( ) 为 插口 指定 一 个 常规 的 、 文 件 名 形式 的 “地 址 ” 时 ， 要 华文 件 系统 的 日 录 
树 中 创建 一 个 节点 ， 并 使 sock 结构 中 的 指针 protinfo.af_unix.dentry 指向 内 存 中 代表 着 这 个 目录 项 的 
dentry 结构 ， 问 时 也 递增 了 这 个 结构 中 的 使 用 计数 。 现 在 ， 如 果 这 个 dentry 结构 存在 ( 见 405 行 )， 就 
要 道 过 dput( ) 递 减 它 的 使 用 计数 ， 要 是 递减 到 了 0 就 此 将 数据 结构 释放 。 xl 日 录 项 所 在 文件 系统 的 安 
装 “ 连 接 件 ”也 龙 - 一 样 ， 要 通过 mntput( ) 递 减 其 使 用 计划 数 ， 要 十 递 减 到 了 0 就 要 将 此 文件 系统 拆除 。 

对 sock 结构 本 身 也 此 递减 其 使 用 计数 。 同 样 ， 如 果 递 减 到 了 0 束 要 将 此 结构 释放 。 如 果 递 减 后 不 
Æ OWE? 那 就 说 明 有 别 的 进程 还 在 使 用 这 个 结构 。 这 是 可 能 的 ， 毕 党 对 sock 结构 所 员 的 锁 在 373 行 处 
就 号 解除 了。 但 是 ， 不 管 是 谁 ， 对 此 结构 调用 的 晤 后 -一 次 sock_put( ) 总 会 将 其 释放 。 

起 后 ， 还 有 个 重要 的 事情 要 做 。 以 前 讲 过 ， 可 以 通过 sendmsg( ) 把 对 已 打开 文件 的 访问 授权 给 其 他 
进程 。 发 送 报 文 的 - 方 要 在 unix_attach_fds( ) 中 通过 unix_inflight( ) 将 这 些 已 打开 文件 记 下 账 ， 表 示 对 
这 些 己 打开 文件 的 访问 授权 已 经 在 发 送 的 过 程 路 ， 即 所 请 “inflight*〈 在 飞行 小)。 而 接收 方 则 在 接收 
到 这 些 授 权 以 后 要 在 unix_detach_fds( ) 中 通过 unix notinflight( 六 销 账 ”所 以 , “Ge a unix_tot_inflight 
TE ORS, 就 表示 有 这 样 的 授权 尚 在 “ 飞 入 ”中 ， 还 没有 被 其 日 标 进程 所 接收 。 同 时 ， 当 通过 sendmsg( ) 
发 送 对 已 打开 文件 的 授权 时 ,在 sem. send ) 中 会 通过 fget( ) 递 增 相 应 file 结构 中 的 共 膏 计数 ,表示 从 这 
一 刻 起 这 个 已 打开 文件 已 经 多 了 一 个“ 用户 ”。 企 日 标 进 程 接收 人 到 这 个 报 文 前 ， 这 个 所 谓 用 户 就 是 内 核 。 
然后 ,当日 标 进程 接收 人 到 这 个 报 文 时 , 要 通过 scm_recv( ) 调 用 sem detach. fds( )。 在 蛙 面 先 通 过 get. file( ) 
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递增 相应 file 结构 中 的 共享 计数 ， 表 示 接 收 进程 也 成 了 这 个 已 打开 文件 的 用 户 ， 随 后 又 通过 
__scm_destroy( ) 递 减 这 个 file 结构 中 的 共享 计数 ， 表 示 内 核 不 再 是 这 个 已 打开 文件 的 用 户 了 。 一 日 载 
送 着 文件 访问 授权 的 报 文 被 接收 方 进程 所 接收 ， 共 享 这 个 已 打开 文件 的 用 户 就 部 是 进程 了 ， 或 迟 或 品 
这 些 进 程 总 会 关闭 这 个 文件 , 而 最 后 关闭 这 个 文件 的 进程 会 将 共享 计数 减 至 0 而 最 终 真正 将 其 "关闭 ”。 

可 是 ， 有 两 种 情况 要 特别 加 以 考虑 。 

第 一 种 情况 是 我 们 这 个 插口 的 接收 队列 中 有 一 个 或 几 个 报 文 载 送 着 这 样 的 文件 访问 授权 。 显 然 ， 
由 于 正在 关闭 这 个 插口 ， 这 些 报 文 都 要 被 丢弃 了 。 但 症 ， 所 谓 “ 丢 弃 ” 绝 不 是 简单 地 释放 缓冲 区 了 事 ， 
因为 对 载 送 着 文件 访问 授权 的 报 文 还 得 负 起 递减 相应 file 结构 中 的 共享 计数 的 责任 ， 否 则 这 些 文件 水 
远 也 不 可 能 真正 关闭 。 我 们 回 过 去 看 一 下 前 面 的 402 行 ， 接 收 队列 中 的 报 文 〈 即 sk buff 结构 ) 是 通过 
kfree_skb( ) 释 放 的 ,我 们 已 在 前 一 节 中 看 过 它 的 代码 。 它 最 终 会 通过 sk_bu 任 结构 中 的 函数 指针 destructor 
调用 -个 函数 。 这 个 函数 - 般 都 指向 sock wfree( )， 但 是 当 报 文 载 送 着 文件 访问 授权 时 则 指向 
unix_destruct_fds( )， 这 是 在 发 送 报 文 时 由 unix_attach_fds( ) 设 置 的 。 函 数 unix_destruct_fds( ) 的 代码 在 
af unix.c 中 ， 





[sys close( ) > filp close( ) > fput( ) > sock close( ) > sock, release( ) > unix release( ) > unix, release sock( ) 
> kfree_skb( ) > __kfree_skb( ) > unix destruct fds( )] 


1123 static void unix_destruct_fds (struct sk buff *skb) 


124 { 

1125 struct scm_cookie scm; 

1126 memset (&scm, 0, sizeof (scm)); 

1127 unix detach fds(&scm, skb); 

1128 

1129 /* Alas, it calls VFS */ 

1130 /* So fscking what? fput( ) had been SMP-safe since the last Summer */ 
1131 scm destroy (&scm) ; 

1132 sock wfree(skb); 

1133. ] 


先 看 这 里 的 unix_detach_fds()， 这 也 在 af unix P: 


[sys_close( ) > filp close( ) > fput( ) > sock close( ) > sock release( ) > unix release( ) > unix release sock( ) 
> kfree_skb( ) ».. kfree skb( ) > unix_destruct_fds( ) > unix detach fds()] 


1111 static void unix detach fds (struct scm cookie *scm, struct sk buff *skb) 
1112 | 


1113 int i; 

1114 

1115 scm >fp = UNIXCB (skb). fp; 

1116 skb->destructor = sock wfree; 

1117 UNIXCB(skb). fp = NULL; 

1118 

1119 for (i=sem->fp—count-1; i>=0; i--) 
1120 unix notinflight (scm-^fp ^fp[i]); 
1121 } 
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这 个 函数 的 作用 有 三 点 ， 先 是 使 scm cookie 结构 中 的 指针 fp 指向 随同 sk_buff 结构 发 送 过 来 的 
scm fp list 结构 ， 其 次 将 sk_buff 结构 中 的 函数 指针 destructor 恢复 成 指向 sock_wfree; 再 就 是 为 每 个 
授权 访问 的 文件 通过 unix_notinflight( )“ 销 账 ”"”。 但 是 ， 至 此 还 没有 触及 相应 file 结构 中 的 共享 计数 ， 
那 是 在 scm_destroy( ) 中 完成 的 ， 有 关 的 代码 在 scm.h 和 sem.c tH: 


[sys_close( ) > filp. close( ) > fput( ) > sock close( ) > sock release( ) > unix release( ) > unix release sock() 
> kfree skb()», kfree skb( ) > unix destruct fds( ) > scm, destroy( )] 


27 static __inline__ void scm destroy (struct scm cookie *scm) 
28 { 

29 if (scm && scm->fp) 

30 __scem_destroy (sem) : 

gie. 


[sys close( ) > filp close( ) > fput( ) > sock close( ) > Sock release( ) > unix release( ) > unix release sock() 
> kfree_skb( ) > kfree skb()» unix_destruct_fds( ) > scm_destroy( ) > ___scm_destroy( )] 


101 void | scm destroy (struct scm cookie *scm) 


102 { 

103 struct scm fp list *fpl = scm->fp; 
104 int 1; 

105 

106 if (fpl) 1 

107 Scm-^fp = NULL; 

108 for (i=fpl->count-1; i520; i--) 
109 fput (fpl— fp[1]): 

110 kfree(fpl); 

111 } 

12  ] 


如 前 所 述 ， 这 里 的 fput( ) 递 减 相 应 file 结构 中 的 共享 计数 。 当 然 ， 如 果 递 减 后 成 为 0 就 将 此 文件 最 
终 关闭 。 
第 二 种 情况 就 更 加 复杂 了， 那 就 是 我 们 刚 从 将 要 关闭 的 插口 发 送 了 个 报 文 ， 将 对 此 插口 的 访问 
授权 给 对 方 ， 但 是 该 报 文 尚 在 “飞行 ”中 ， 还 没有 被 对 方 接收 ， 而 这 一 边 的 插口 倒 要 关闭 了 。 下 面 我 
们 道 过 两 个 情景 来 说 明 可 能 存在 的 问题 。 
假定 有 两 个 进程 A 和 B， 还 有 两 个 Unix 域 插口 sa 和 sb; 并 且 A 是 sa EMD, IB & sb HE 
一 的 用 户 。 先 米 看 第 - MSS: 
(1) A 通过 sa 发 送 一 个 报 文 到 sb， 把 对 sa 的 访问 授权 给 B， 因 此 已 经 递增 了 sa 的 file 结构 中 的 
APR. FARM EEA Sl sb 的 接收 队列 中 , ATLL A 的 sendmsg() 操 作 已 经 成 功 返 回 。 可 
A BRATE sb 上 接收 报 文 ， 所 以 该 报 文 还 在 sb 的 接收 队列 中 等 待 被 接收 ， 对 插口 sa 的 访 
问 授权 还 在 “改行 ”中 。 

(2) Bear, A 通过 close( ) 关 闭 sa。 内 核 递 减 sa 的 file 结构 中 的 共享 计数 ， 但 是 由 于 在 递减 前 的 计 
数 为 2， 所 以 递减 后 并 未 到 达 0。 因 此 ， 系 统 调用 close( ) 至 此 就 完成 了 ， 计 未 对 sa 执行 
sock_close( )。 可 是 ， 进 程 A 却 从 此 失去 了 与 sa 的 联系 。 
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GO) B 没有 从 sb 接收 报 文 ,但 是 却 关闭 了 sb。 由 于 在 此 之 前 sb 的 file 结构 中 的 共享 计数 为 1， 所 
以 递减 后 达到 了 0， 因 此 内 核对 sb 执行 sock_close( )。 在 执行 sock_close( ) 的 过 程 中 ， 内 核对 
sb 接收 队列 中 的 每 个 报 文 都 执行 kfree_skb( )。 当 对 上 述 由 A 发 出 的 者 个 报 文 执行 kfree_skb( ) 
lh, TE scm destroy ) 中 会 对 sa 的 file 结构 调用 fput( )。 这 时 候 ，sa 的 file 结构 的 共 序 计数 就 
变 成 了 0， 从 而 引起 sock close( ) 对 sa 的 执行 而 将 其 最 终 关闭 撤销 了 。 最 后 ，sb 插口 本 身 也 
最 终 地 关闭 、 撤 销 了 。 

当然 ， 如 果 B 接收 了 上 述 报 文 ， 邦 么 B 就 成 了 sa 的 惟一 用 户 。 最 后 B 终究 要 关闭 sa， 那 时 sa 也 
最 终 得 旬 关 闭 和 撤销 。 插 口 的 sa 和 sb 之 间 的 这 种 关系 可 以 推广 到 更 多 个 插口 而 形成 一 条 链 , 但 是 最 终 
这 条 链 中 的 所 有 插口 都 能 正常 地 关闭 和 撤销 。 所 以 ， 这 个 情景 没 有 什么 问题 。 

再 来 看 第 二 个 情景 : 

(1) A 通过 sa 发送 一 个 报 文 到 sb, 把 对 sa 的 访问 授权 给 Bo 该 报 文 已 经 挂 入 到 sb 的 接收 队列 中 ， 

但 尚未 被 接收 ， 所 以 对 sa 的 访问 授权 还 在 “飞行 ”中 。 

(2) B 也 通过 sb BRE 一 个 报 文 到 sa， 把 对 sb 的 访问 授权 给 A。 同 样 地 ， 该 报 文 已 经 挂 入 到 sa 的 

接收 队列 中 ， 但 尚未 被 接收 ， 所 以 对 sb 的 访问 授权 也 还 在 “飞行 ”中 。 

Q) A 通过 close( ) 关 闭 sa, 但 是 因 对 sa 的 共享 计数 递减 后 未 达到 0 而 个 能 对 sa 执行 sock_close( )， 

可 是 进程 A S48 sa 之 间 的 联系 却 已 经 切断 了 。 

(4) B 也 通过 close( ) 关 闭 sb。 同 样 地 ， 因 对 sb 的 共享 计数 递减 后 未 达到 0 而 个 能 对 sb 执行 

sock_close( )， 可 是 进程 B 与 插口 sb 之 问 的 联系 也 已 经 切断 了 。 

如 果 不 采 取 措 施 的 话 ， 那 么 A 发 出 的 报 文 就 会 永远 留 在 sb 的 接收 队列 中 ， 而 B 发 出 的 报 文 则 会 
AGRE PAE sa 的 接收 队列 中 。 两 个 插口 的 共享 计数 都 是 1， 却 没有 一 个 进程 能 访问 到 这 两 个 插口 的 任何 
一 个 。 插 口 本 身 是 不 能 “生活 自理 ”的 ， 它 自己 不 会 关闭 和 撤销 自己 。 于 是 ， 这 两 个 插口 ， 也 就 是 有 S 
关 的 数据 结构 ， 连 同 接收 队列 中 的 所 有 报 文 都 已 成 了 “废料 ” (MERA aE AIM. FI, dcl 
sa 和 sb 之 间 的 这 种 关系 也 可 以 推 /到 更 多 个 插口 ,如 果 说 在 前 一 种 情景 所 涉 太 的 插口 构成 “个 链 的 话 ， 
那么 在 这 个 情景 中 所 构成 的 是 一 个 坏 ， 而 区 划 也 正在 于 此 。 这 种 现象 与 “ 死 锁 ” 的 表现 盟 然 个 同 ， 穆 
理 却 是 相通 的 。 | 

对 这 一 类 问题 的 对 策 无 非 是 “ 防 ” 与 “化 ”两 个 学 。 所 谓 “ 防 ”就 是 防止 这 种 现象 的 发 生 ; 而 “化 ” 
则 普 先 要 能 检测 到 这 种 现象 的 发 生 , 然后 就 来 化 解 。 具体 到 上 述 问题 ,“ 防 ”是 很 难 的 , 所 以 只 好 在 “化 ” 
字 上 做 文章 。 为 此 目的 ， 内 核 中 设计 了 一 个 专门 几 来 解决 这 个 问题 的 “废料 收集 ”机 制 ， 县 体 束 契 由 
üt IE] unix release. sock( ) 代 码 中 426 行 处 调用 的 unix_gc( ) 实 现 的 。 这 个 函数 的 代码 在 net/unix/garbage.c 
中 ， 我 们 分 段 阅读 : 


[sys_close( ) > filp. close( ) > fput( ) > sock. close( ) > sock. release( ) > unix release( ) > unix, release. sock( ) 
»unix gc( )] 


166 /* The external entry point: unix gc( ) */ 


167 

168 void unix gc (void) 

169 { 

170 static DECLARE MUTEX (unix gc sem); 
171 int 1; 

172 unix socket *s; 

173 struct sk buff head hitlist; 


| Hl. 


174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
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struct sk buff *skb; 


/* 
* Avoid a recursive GC. 


*/ 


if (down trylock(&unix gc sem) ) 
return; 


read lock(&unix table lock): 


forall unix sockets(i, s) 


{ 
s-»protinfo.af unix. gc_tree-GC ORPHAN: 


/* 
* Everything is now marked 


*/ 


/* Invariant to be maintained: 
- everything unmarked is either: 
— (a) on the stack, or 
— (b) has all of its children unmarked 
- everything on the stack is always unmarked 
- nothing is ever pushed onto the stack twice, because: 
-— nothing previously unmarked is ever pushed on the stack 


*/ 


/* 
* Push root set 


*/ 


forall unix sockets(i, s) 
{ 
f* 
* If all instances of the descriptor are not 
* in flight we are in use. 
*/ 
if(s-^socket && s—>socket—-file && 
file count (s-^socket—^filc)^atomic read(&s-^protinfo.af unix. inflight)) 
maybe unmark and push(s); 


“废料 ”收集 的 过 程 是 不 容许 两 个 进程 同时 进行 的 ， 所 以 要 通过 内 核 信 号 量 unix gc sem 把 它 保 


护 起 来 。 为 一 方面 ， 在 这 个 过 程 中 要 扫描 和 处 理 杂 凑 表 unix_socket_table[ ] 中 的 所 有 队列 ， 所 以 在 此 其 
间 也 不 容许 为 任何 其 他 日 的 来 变动 这 些 队列 ， 内 此 还 要 将 整个 unix_socket_table[ ] 加 上 锁 。 代 码 中 的 


.112. 


第 7 章 ”基于 socket 的 进程 癌 通 信 
forall unix. socket( ) 是 个 宏 定 义 ， 其 定义 在 include/linux/af unix.h FP: 


16 tdefine forall unix sockets(i, s) \ 
17 for (i=0; i«-UNIX HASH SIZE; i++) V 
18 for (s=unix socket tablelil: s; s=s—>next) 


BA, WARE TAREE PAT AT BASU, FAFA SUAS sock 结构 。 那 么 ， 扫 描 这 些 sock 结构 十 
什么 昵 ? 第 一 趟 扫描 时 把 所 有 的 sock 结构 都 标志 成 GC. ORPHAN. 也 哑 是 说 ， 先 假定 所 有 的 插口 都 心 
经 成 了 前 述 “ 生 活 不 能 自理 ”的 “孤儿 ” Unix 域 插口 的 sock 结构 中 专 为 废料 收集 而 设置 了 一 个 指针 
profile.af_unix.gc_tree。 只 有 Unix 域 插 口才 文 持 对 已 打开 文件 的 授权 ， 所 以 只 有 Unix REO 8 R 
料 收集 的 问题 。 常 数 GC_ORPHAN 的 定义 也 在 garbage.c P: 


85 /* Internal data structures and random procedures: */ 


87 #define GC HEAD ((unix socket *) (-1)) 
88 define GC ORPHAN — ((unix socket *) (-3)) 


90 static unix socket *gc current-GC HEAD; /* stack of objects to mark */ 
92 atomic_t unix tot inflight = ATOMIC INIT(0) ; 


这 里 我 们 同时 列 出 了 其 他 几 个 定义 。 其 中 unix tot inflight 就 是 当前 正在 “飞行 ”中 的 已 打开 文件 
访问 授权 的 个 数 。 向 指针 gc current 则 在 废料 收集 的 过 程 中 用 来 构筑 一 个 “后 进 先 出 ”队列 。 

顺 使 提 一 下 ， 我 们 是 在 函数 unix_release_sock( ) 的 末尾 处 调用 unix_ge( ) 的 。 此 时 我 们 要 关闭 并 撤 
销 的 插口 本 身 己 经 与 杂凑 表 无 关 ， 它 的 sock 结构 人 在 刚 进入 unix release sock( ) 时 就 已 经 道 过 
unix remove, socket( ) 从 杂凑 表 的 队列 中 摘除 了 。 PERE, “REE” HIERRO, H 
不 过 是 乘机 让 它 承 担 一 点 义务 ， 作 出 .点 贡献 而 已 。 

第 一 趟 扫描 将 所 有 的 插口 都 假定 为 “孤儿 ” 当然 不 见得 就 符合 事实 ， 所 以 第 二 趟 扫描 就 此 来 加 以 
杜 别 了 。 根 据 什 么 准则 来 甄别 呢 ? 那 就 是 比 较 插 口 的 file 结构 中 的 共享 计数 和 sock 结构 中 的 另 一 个 计 
数 器 protoinfo.af_unix.inlight。 我 们 以 前 看 到 过 ， 当 将 对 -个 插 门 的 访问 授权 通过 sendmsg( AISA A 
一 个 进程 时 ， 要 调用 unix_inflight( ) 递 增 该 插口 的 sock 结构 中 的 这 个 计数 器 ， 以 及 全 局 性 的 计数 器 
unix_tot_inflight， 而 在 对 方 接收 了 这 个 报 义 时 则 颖 调用 unix_notinflight( ) 递 减 这 两 个 计数 器 。 当 然 ， 对 
iON file 结构 中 的 共享 计数 也 要 作 类 似 的 处 理 。 旭 果 我 们 比较 这 两 个 计数 器 的 大 小 ， 则 可 以 得 到 如 
下 的 结论 ; 

(1) 文件 共享 计数 > 授权 报 文 计数 : 正常 。 说 明 除 正在 “改行 ”中 的 授权 报 文 外 至 少 偿 有 一 个 

用 户 ， 而 这 个 用 户 必然 是 一 个 进程 。 所 以 ， 这 个 插口 不 是 “孤儿 ”。 
(2) 文件 共享 计数 = 授权 报 交 计数 ， 不 正常。 这 个 插口 已 经 没有 真 下 意义 上 的 “用 户 ” 了 ， BE. 
以 可 能 是 “孤儿 ”。 

(3) 文件 共享 计数 < 授权 报 文 计数 : 不 可 能 发 生 。 

在 第 二 趟 扫描 中 ， 凡 遇 正 常 的 sock 结构 号 通过 其 指针 protinfo.af_unix.gc_tree 将 其 链 入 到 队列 
gc curent 的 前 部 , 或 者 说 将 其 推 入 “堆栈 ”gc_current。 实现 这 :操作 的 于 数 代 码 如 下 (上 见 garbage.c) : 


fsys_close( ) > filp. close( ) > fput( ) > sock close( ) > sock_release( ) > unix release( ) > unix_release_sock( ) 
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> Unix_gc( ) > maybe unmark and push( )] 


156 extern inline void maybe unmark and push(unix socket *x) 


157 { 

158 if (x->protinfo. af unix. gc tree != GC ORPHAN) 
159 return; 

160 sock hold(x); 

161 x »protinfo.af unix.gc tree = gc current; 

162 gc current = x; 

163 } 


注意 ， 将 一 个 sock 结构 链 入 到 gc current 队列 中 ， 并 不 意味 着 这 个 结构 就 脱离 了 杂 读 表 
unix socket table[ ] 中 的 队列 ，sock 结构 可 以 通过 相同 鸣 指 外 链 入 不 同 的 队列 。 

这 样 ， 第 二 趟 扫描 以 后 , 凡是 其 指针 protinfo.af_unix.gc_tree 仍 为 GC_ORPHAN 的 插口 很 串 能 就 是 
“ 扳 儿 ”了 。 但 是 ， 至 此 还 不 能 肯定 所 有 这 些 插口 都 已 经 成 了 “和 孤儿 ” 央 为 这 实际 上 取决 于 授权 的 对 
象 ， 更 确切 地 说 是 接收 授权 报 文 的 插 D。 以 上 面 所 举例 子 中 的 插口 sa 为 例 。 对 sa 的 访问 授权 有 可 能 已 
AMS MRM AIRS S SPU, 然后 AKAT Sa。 只 此 有 一 个 对 访问 sa 的 授权 报 文 是 在 一 个 “下 
党 ”插口 的 接收 队列 中 ,那么 这 个 报 文 就 有 希望 被 某 个 进程 接收 ， 从 而 使 sa 又 有 了 真 止 意义 上 的 用 户 ， 
那个 进程 自 会 负 起 最 后 关闭 并 撤销 sa 的 责任 。 所 以 ， 还 此 进一步 最 别 ， 这 一 次 是 检 坦 所 有 “正常 ” 搬 
口 的 接收 队列 中 的 每 一 个 报 文 ， 而 所 有 “正常 ”插口 的 sock 结构 都 已 经 在 队列 gc_current 中 了 。 

继续 看 unix gc 的 代码 : | 


[sys_close( ) > filp. close( ) > fput( ) > sock close( ) > sock release( ) > unix release( ) > nix release sock( ) 
> unix gc()] 


217 /* 

218 * Mark phase 

219 */ 

220 

221 while (I!empty stack( )) 

222 { 

223 unix socket *x = pop_stack( ); 

224 unix socket *sk; 

225 

226 spin lock(&x— receive queue. lock); 
221 skb-skb peek(&x-^receive queue); 

228 

229 /* 

230 * Loop through all but first born 
23l */ 

232 

233 while(skb && skb != (struct sk buff *)&x->receive queue) 
234 { 

235 /* 

236 * Do we have file descriptors ? 
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237 */ 

238 if (UNIXCB (skb). fp) 

239 { 

240 /* 

241 * Process the descriptors of this socket 
242 */ 

243 int nfd=UNIXCR (skb). fp->count ; 

244 struct file **fp = UNIXCB(skb). fp->fp; 
245 while (nfd--) 

246 { 

247 /* 

248 * Get the socket the fd matches if 
249 * it indeed does so 

200 */ 

251 if ((sk=unix get socket Ckfp44)) ! -NULL) 
252 | 

253 maybe unmark and push(sk); 

254 } 

255 } 

256 } 

257 /* We have to scan not-yet-accepted ones too */ 
258 if (x->state == TCP LISTEN) | 

259 maybe unmark and push(skb >sk); 

260 } 

261 skb=skb~>next ; 

262 } 

263 spin unlock (&x—>receive queue. lock) ; 

264 sock put (x) ; 

265 } 

266 


FAUX BERG AES HON. XXL) pop_stack( ) 从 队列 gc. current 的 前 部 摘 下 一 个 sock 
结构 (所 以 是 “后 进 先 出 ”)， 而 empty_stack( ) 则 测试 该 队列 的 长 上 度 ， 函 数 skb_peek( ) 从 一 个 接收 队列 
中 取 第 一 个 报 文 《 即 sk buff 结构 〉 的 指针 ， 但 并 不 将 其 摘 下 。 

此 处 给 出 pop. stack( ) 等 的 代码 如 下 Cgarbage.c): 


140 /* 

141 * Garbage Collector Support Functions 
142 x/ 

143 

144 extern inline unix socket *pop_stack (void) 
145 { 

146 unix socket *p=gc_current; 

147 gc current ~ p-?protinfo.af unix.gc tree; 
148 return p; 

149 } 

150 


. H5. 
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151 ` extern inline int empty stack (void) 


152- | 
153 return gc current == GC HEAD; 
154 ] 


iE E, maybe unmark and push( ) 对 于 已 经 进入 gc, current 队列 的 sock pA EEH CI 159 47). 

ERNDXPORSUNDUS. PSU GC ORPHAN 的 插口 就 最 后 定性 为 “孤儿 ”了 。 对 这 些 “PUL” 
怎么 办 呢 ? 扫 描 其 接收 队列 中 的 所 有 报 文 ， 凡 发 现 戟 有 访问 授权 的 报 文 就 将 其 从 接收 队列 中 摘 下 来 集 
中 到 一 个 临时 的 队列 hitlist 中 ， 最 后 对 这 些 报 文 执行 kfree_skb( )， 其 代码 我 们 已 在 前 面 看 到 过 。 注 意 
这 里 只 要 对 载 有 访问 授权 的 报 文 调用 kfree_skb( ) 就 行 了 ， 对 于 已 定性 为 “孤儿 ”的 sock 结构 并 不 需要 
特地 加 以 处 理 ， 因 为 这 一 定 已 经 隐 含 在 对 某 个 报 文 的 kfree_skb( HT. SF “FUL” sock 结构 的 接收 
队列 中 的 其 他 报 文 ， 也 白 会 得 到 释放 〈 请 读者 想 一 下 ， 为 什么 。) 

最 后 给 出 unix gc 代码 的 余下 部 分 : 


[sys_close( ) > filp close( ) > fput( ) > sock_close( ) > sock, release( ) > unix release( ) > nix release. sock( ) 
> unix gc( )] 


267 skb queue head init(&hitlist): 

268 

269 forall unix sockets(i, s) 

270 { 

211 if (s—^»protinfo.af unix. gc_tree =~ GC ORPHAN) 
272 { 

273 struct sk buff *nextsk; 

274 spin lock(&s-^receive queue. lock) : 

215 skb-skb peek(&s-^receive queue); 

276 while(skb && skb != (struct sk buff *)&s—>receive queue) 
277 { 

278 nextsk=skb->next; 

279 /* 

280 * Do we have file descriptors ? 
281 */ 

282 if (UNIXCB (skb). fp) 

283 | 

284 __skb unlink(skb, skb-»list); 
285 skb queuc, tail (&hitlist, skb) ; 
286 } 

287 skb=nex tsk; 

288 } 

289 spin unlock (&s->receive queue. lock): 
290 } 

291 s-^protinfo.af unix.gc tree = GC ORPHAN; 
292 } 

293 read unlock (&unix table lock); 

294 

295 /* 
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296 * Here we are. Hitlist is filled. Die. 

297 */ 

298 

299 while ((skb-  skb dequeue (&hitlist))!-NULL) | 
300 kfree skb(skb); 

301 ) 

302 

303 up(&unix gc. sem); 

304  ] 


如 前 所 述 ， 对 unix gc( ) 的 调用 其 实 并 不 是 非得 拘 在 unix_release_sock( ) 中 。 例 如 ， 完 全 可 以 周期 
性 地 调用 这 个 函数 但 是 ， 放 在 unix release. sock( ) 的 末尾 还 中 比较 合适 的 。 也 洗 读者 会 同 ， 为 什么 个 
把 对 这 个 问题 的 处 理 放 在 系统 调用 close( RIF AIE? 例如 ， 在 递 降 了 file 结构 中 的 共享 计数 以 后 ， 如 
果 没 有 达到 0 就 与 sock 结构 中 的 授权 计数 比较 一 下 ， 这 样 号 上 就 可 以 知道 是 省 有 本 插口 发 生 的 授权 报 
文正 在 “飞行 ”中 这样 不 是 更 有 效 吗 ? 问题 在 十， 文件 系统 操作 界面 的 函数 都 是 通用 的 ， 必 须 扣 用 
于 所 有 不 同类 型 的 文件 ， 而 插口 只 是 其 中 的 一 种 。 以 关闭 文件 为 例 ， 内 核 中 由 sys_close( ) 调 用 
filp_close( )， 再 由 filp_close( ) 调 用 fput( )， 所 有 这 些 函 数 部 只 是 在 vis 层 对 抽 狂 的 文件 进行 操作 ， 恨 本 
就 不 知道 所 操作 的 到 底 是 个 付 么 样 的 文件 ， 所 以 显然 是 不 合适 的 。 
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如 前 所 述 , “插口 “机 制 有 两 个 用 户 程序 界面 ，- 个 是 为 播 口 专 设 的 ， 另 一 个 就 是 通 用 的 文件 操作 
界面 。 这 样 ， 即 使 只 考虑 Unix 成 的 插口 ， 内 核 中 与 之 有 关 的 陋 数 就 自然 更 多 一 些 了 。 RN 已 经 把 主要 
的 和 比较 复杂 的 Unix 域 的 插口 操作 及 其 代码 作 了 详细 介绍 , 但 是 限于 篇 幅 我 们 只 好 把 剩 上 的 一 些 代 倘 
留 给 读者 自己 阅读 了 。 

从 插口 操作 界面 ， 也 就 是 系统 调用 socketcall( ) 在 内 核 中 的 入 口 sys_socketcall( ) 的 角度 来 看 ， 留 下 
来 的 有 这 么 一 些 ，sys_getsockname( ). sys getpeername( ). sys socketpair( ). sys shutdown( )、 
sys_getsockopt( ) 以 及 sys_setsockopt( )。 这些 函 数 也 比 通 过 数据 结构 unix_dgram_ops 或 unix_stream_ops 
跳 转 到 unix 域 插口 对 这 些 操作 的 实现 ， 分 别 为 unix_getname( ). unix socketpair(). unix shutdown( )。 
函数 sys_getpeername( ) 与 sys_getsockname( ) 的 不 同 之 处 在 于 后 者 是 取 搬 口 本 攻 的 地 址 ， 而 前 者 是 取 对 
方 插 日 的 地 址 ( 限 半 已 调用 connect( ) 以 后 )。 所 以 最 终 部 羡 由 sys getname( ) 完 成 的 。 另 外 ， 
sys_getsockopt( ) 和 sys_setsockopt( ) 二 者 都 是 为 网 络 环境 设计 的 ， 因 为 在 其 体 的 网 络 通信 规程 中 常常 有 
洗 多 可 选项 要 设 堂 ， 而 在 unix 域 中 则 不 存在 这 个 问题 。 所 以 ， 店 unix dgram ops 和 unix stream ops 
两 个 结构 中 ， 有 关 的 函数 指针 为 sock_no_getsockopt( ) 和 sock. no. setsockopt( ), He p Ae AB H EIA 
个 出 错 代 码 一 EOPNOTSUPP， 表 示 系 统 不 支持 这 些 操作 。 

总 的 来 说 ， 剩 下 的 这 些 丽 数 玫 是 很 简单 、 很 让 截 了 当 的 。 例 如 ，unix_socketpair( ) 的 代码 为 《网 


af_unix.c): 
[sys_socketcall( ) > sys. socketpair( ) > unix, socketpair( )] 
1015 static int unix socketpair(struct socket *socka, struct socket *sockb) 


, H7 . 
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1016 { 

1017 struct sock *ska-socka-^sk, *skb = sockb—>sk; 

1018 

1019 /* Join our sockets back to back */ 

1020 sock hold(ska) ; 

1021 sock hold(skb) : 

1022 unix peer (ska) =skb; 

1023 unix_peer (skb) =ska; 

1024 ska~>peercred. pid = skb->peercred. pid = current->pid: 
1025 ska~>peercred. uid = skb >peercred. uid = current-»euid: 
1026 ska~>pecrcred. gid = skb->peercred. gid = current—>egid: 
1027 m 
1028 if (ska type != SOCK DGRAM) 

1029 { | 

1030 ska->state=TCP_ ESTABLISHED; 

1031 skb->state=TCP_ESTABLISHED: 

1032 socka-?statc=SS CONNECTED; 

1033 Sockb-5state-SS CONNECTED; 

1034 } 

1035 return 0; 

1036  ) 


参数 socka 和 sockb 为 已 经 在 sys. socketpair( ) 中 通过 sock. create( ) 创 建 好 的 两 个 socket 数据 结构 。 
这 里 的 1022 行 和 1023 行使 它们 的 sock 结构 各 自 指向 对 方 ， 如 果 弟 “有 连接 ”插口 则 还 要 设置 好 各 自 
的 有 限 状 态 以 及 插口 的 状态 。 

为 一 方 血 ， 从 文件 系统 的 操作 界面 来 看 ， 则 还 有 这 么 儿 个 函数 ;sock_lseek( ). sock polk ). 
sock_ioctl( )、sock_mmap( ) 以 及 sock_fasync( )。 其 中 sock Iseek( ) 只 是 返 同 一 个 出 错 代 码 ， 因 为 插口 并 
不 文 持 lseek( )。 函数 sock_poll( ) 用 本 系统 调用 select( ); sock_ioctl( ) 用 丁 系统 调用 ioctl( )。 相 应 的 unix 
域 函 数 为 unix_poll( )、datagram_poll( ) 以 及 unix_ioctl()。 读 者 可 以 结合 “文件 系统 ”和 “字符 设备 驱 
动 ” 这 两 章 把 它们 读 懂 。 操 作 sock_mmap( ) 在 Unix 域 中 的 实现 为 sock_no_mmap( )， 就 是 说 Unix Bid 
NFPA SCH mmap( )。 最 后 ，sock fasync( ) 用 来 让 插口 在 低 当 有 报 文 〈 包 括 连 接 请 求 ) 到 达 叶 就 向 若干 
进程 发 出 IOSIG 信号 , 从 而 实现 对 报 文 的 异步 接收 。 这 个 函数 并 没有 特别 针对 Unix 域 插口 的 底层 操作 ， 
击 是 通用 于 所 有 插口 。 我 们 在 讲述 sock_close( ) 时 已 经 列 出 了 sock_fasyne( ) 的 代码 ， 介 是 只 讲 了 当 调 
用 参数 on 为 0 时 ， 也 就 是 要 停止 异步 接收 时 的 那 部 分 代码 。 不 过 ， 读 懂 了 :个 方向 的 操作 (停止 异步 
接收 ) KAREA, Bi CASI BEM) 的 代码 应 该 是 比较 容易 的 了 。 

最 后 ， 我 们 建议 读者 把 sock 数据 结构 《〈 以 及 张 _buff) 的 定义 打印 出 来 ， 再 根据 我 们 讲 到 的 内 容 ， 
试 着 为 数据 结构 中 的 每 个 字段 (成 分 ) (只 要 是 凯 经 讲 人 旬 过 的 ) 的 用 途 和 作用 加 上 注释 。 如 果 你 觉得 很 
多 字段 的 用 途 和 作用 实在 不 是 站 言 两 诸 能 够 济 清 的 ， 你 就 明白 了 为 什么 我 们 没有 在 一 开始 就 列举 该 数 
AMAT TRAE 了。 在 这 种 情况 下 ， 你 不 妨 在 打印 的 清单 上 写 上 “ 见 x X 页 ”等 字样 ， 以 备 日 
后 查阅 。 
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8.1 概述 


设备 驱动 在 系统 中 的 重要 地 位 是 无 需 多 加 说 明 的 ， 计 算 机 最 基本 的 三 个 物质 基 蚀 就 是 CPU、 内 存 
以 及 输入 /输出 〈LIO》 设 备 。 严 格 地 说 ， 离 开 了 对 设备 的 操作 ， 即 输入 /输出 换 作 ， 计 算 机 本 身 也 就 失 
去 了 意义 。 相 比 之 下 ， 文 件 系统 的 存在 只 不 过 是 使 对 设备 的 操作 更 为 方便 、 更 为 有 效 、 更 有 组 织 、 岗 
接近 人 类 的 患 维 方式 而 已 。 所 以 ， 文 件 操作 是 对 设备 操作 的 弓 织 与 抽象 ， 而 设备 操作 则 是 对 文件 操作 
的 最 终 实 现 。 

Unix 把 作 系 统 从 一 开始 就 将 所 有 的 设备 《而 不 仅 是 磁卡 上 的 文件 ) 全 都 看 成 文件 ， 痢 纳入 文件 系 
SWE, AGREE VEIN ATT ARE. RRA: 

e & MER MA DN ERAPHI TOE COE) 代表 ， 因 而 都 有 :个 “ 文 

44^. 每 个 这 样 的 “设备 文件 ”都 惟 :地 确定 了 系统 中 的 “项 设备 。 应 用 程序 通过 设备 的 文 
件 名 寻访 具体 的 设备 ， 人 出 设备 则 像 普通 文件 一 样 受到 文件 系统 访问 权限 控制 机 制 的 你 护 。 

e ”应 用 程序 通常 可 以 通过 系统 调用 open( )“ 打 开 ” 设 备 文件 ， 建 立 起 与 旦 标 设备 的 连接 ， 或 日 
“EFI” 代表 着 该 设备 的 文件 节点 中 记载 着 建立 这 种 连接 所 需 的 信息 。 对 于 执行 该 应 用 程 
序 的 进程 而 言 ， 建 立 起 的 连接 就 表现 为 一 个 已 打开 文件 。 

e ”打开 了 代表 着 目标 设备 的 文件, 即 建 六 起 与 设备 的 连接 以 后 ,就 可 以 通过 read( ).write( )\ioctl( ) 
等 常规 的 文件 操作 对 目标 设备 进行 操作 。 从 应 用 程序 的 角度 看 ， 设 备 文件 逻辑 上 的 空间 是 个 
线性 空间 。 从 这 个 逻辑 空间 到 具体 设备 的 物理 空间 的 映射 则 由 内 核 提供 ， 并 划分 成 文件 操作 
与 设备 驱动 两 个 层次 。 

这 样 ， 对 于 :个 具体 的 设备 米 说 ， 文 件 操作 和 设备 驱动 就 成 为 同一 事物 的 不 辐 层次 ， 而 不 是 互相 
独立 或 平行 的 两 个 概念 。 从 这 种 观点 和 结构 模型 出 发 ， - 般 而 言 ， 至 少 可 以 在 概念 上 把 一 个 系统 划分 
成 应 用 、 文 件 系统 以 及 设备 驱动 这 么 一 个 层次 。 这 不 仅 适 用 十 Unix， 也 可 以 运用 到 其 他 的 操作 系统 ， 
尽管 具体 的 划分 和 安排 可 以 不 同 。 例 如 ， 通 常 文件 系统 层 和 设备 驱动 层 都 在 内 核 中 ， 但 症 也 有 的 系统 
把 文件 系统 放 在 内 核 外 而 作为 应 用 层 的 一 个 进程 。 表 面 上 看 来 “从 进程 的 角度 ) 此 时 文件 系统 与 应 用 
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程序 卫 相 平行 ， 但 是 如 果 考 察 对 一 员 体 文件 的 操作 过 程 ， 就 可 以 看 出 用 来 实现 文件 系统 的 进 各 实际 上 
成 了 应 用 程序 与 内 核 之 间 的 一 个 附加 的 层次 。 有 些 系统 只 提供 设备 驱动 而 不 提供 文件 系统 ， 由 应 用 各 
序 在 进程 内 部 实现 其 自己 的 文件 系统 (例如 道 过 一 些 库 隐 数 调用 )。 显然 这 只 是 文件 系统 层 的 物理 位 置 不 
同 ， 而 并 不 改变 整个 结构 模型 的 层次 结 移 。 邮 使 有 些 特 狐 的 应 用 程序 根木 不 使 用 文件 系统 ， 而 直接 对 
设备 拟 动 屋 操作 ， 那 也 可 以 认为 只 是 一 种 特例 ， 即 此 时 的 文件 系统 是 完全 “透明 ”的 。 还 有 些 操作 系 
统 ， 特 别 是 早期 的 操作 系统 ， 把 设备 驱动 做 成 与 文件 系统 平行 ， 有 独立 的 命名 空间 以 及 一 参 独 立 的 操 
作 (系统 调用 )， 让 应 用 层 直接 与 设备 驱动 打交道 。 表面 上 看 来 这 是 完全 不 同 的 结构 模型 ， 但 是 如 果 作 更 
深入 的 思考 就 可 以 领悟 到 ， 实 际 上 这 具 不 过 是 实现 方法 上 的 不 同 ， 只 不 过 是 为 设备 驱动 保留 了 更 多 的 
特殊 性 ， 对 设备 少 作 了 基 些 抽象 而 已 ， 市 采用 套 独 立 的 、 专 用 的 操作 则 有 损 其 灵活 性 。Unix 的 设计 
者 正 是 认识 到 了 这 一 点 ， 而 在 Unix 中 首先 明确 地 把 设备 驱动 纳入 了 文件 系统 。 所 以 ， 许 多 系统 的 外 观 
也 许 不 同 ， 租 二 如果 加 以 仔细 考察 就 可 以 发 现实 际 上 说 到 底 还 是 同一 个 结构 模型 。 而 Unix( 和 Linux) 
的 文件 系统 ， 则 是 这 种 结构 模型 的 典型 实现 ， 也 许可 以 说 是 最 自然 的 实现 。 本 世上 册 第 5 章 “ 文 件 系 
统 ”的 文件 系统 结构 图 图 5.1》 就 反映 了 这 种 系统 结构 ， 其 文件 系统 层 和 设备 驱动 层 都 在 内 核 中 。 从 
这 个 意义 上 说 ， 本 书 第 5 章 也 许 不 应 沪 叫 “文件 系统 ”而 应 更 确切 地 称 为 “磁盘 文件 系统 ”或 “普通 
文件 系统 ”所 以 说 ,“ 文 件 系统 ”这 个 词 的 含义 是 很 模糊 的 。 

但 是 ， 话 盟 如 此 ， 对 十 不 同 的 设备 其 文件 系统 层 的 “厚度 ” 却 有 所 人 不同。 对 丁 像 磁 瘟 这 样 结构 性 
很 强 ， 并 卫 其 内 容 需要 进 “ 步 加 以 组 织 和 抽象 的 设备 来 说 ， 其 文件 系统 很 “ 厚 ” 很 “ 重 ” 这 一 点 读者 
在 阅读 “文件 系统 ”一 章 时 得 必 忆 有 所 体会 。 磁 盘 设备 的 复杂 性 来 自 两 个 方面 。 一 方面 是 介质 本 身 的 
结构 ， 如 “磁道 ””“ 杜 面 "、“ 肩 区 ”以 及 抽象 意义 上 的 “记录 块 ”” 另 方面 是 在 “记录 块 ”基础 上 的 
又 一 层 组 织 和 抽象 ， 即 “磁盘 文件 ”。 这 样 ， 在 物理 介质 上 的 第 一 层 抽象 使 操作 者 不 必 关 心 读 / 写 的 物 
理 位 置 究竟 在 哪 “个 磁道 ， 哪 一 个 剧 区 ;而 第 二 层 抽象 则 使 操作 者 不 必 关 心 读 / 写 的 内 容 在 哪个 远 辑 
“记录 块 ”中 。 很 自然 地 ， 我 们 把 第 . 层 抽 象 轨 入 设备 驱动 层 ， 而 第 二 层 抽象 则 归 入 文件 系统 层 。 但 
是 ， 还 有 一 些 设备 ， 如 宁 符 终端 、 字 符 打印 机 等 ， 则 由 于 本 身 并 没有 什么 结构 ， 甚 至 不 存在 存储 介质 ， 
因而 简单 得 多 。 对 十 这 样 的 设备 ， 其 文件 系统 层 白 然 就 比较 “ 注 "， 甚 至 近乎“ 透明 ”。 不 光 是 文件 系 
统 层 比较 簿 ， 连 设备 晃动 层 也 可 能 很 科 单 。 另 “方面 ， 即 使 是 对 于 磁盘 设备 ， 在 有 些 应 用 中 也 可 以 绕 
过 第 二 层 抽象 而 简单 地 把 它 当成 记录 块 “ 数 组 ” 也 就 是 忽 路 由 这 些 记录 块 的 内 容 形 成 的 关连 和 组 织 ， 
使 原来 很 厚 的 文件 系统 层 变 得 很 薄 。 在 这 种 情况 下 ， 我 们 称 之 为 “原始 ”(raw) 设备 。 当 然 ， 物 理 上 
还 是 同一 个 设备 ， 只 不 过 是 “ 横 看 成 岭 侧 成 峰 ” 一 从 不 同 的 角度 看 问题 而 已 。 在 这 方面 ， 将 设备 驱 
动 纳入 文件 系统 又 表现 出 其 优越 性 ， 内 为 对 同一 设备 的 不 同 驱动 方式 可 以 由 不 同 的 文件 来 代表 。 下 页 
的 示意 图 (图 8.1) 或 许 将 有 助 十 读者 的 理解 。 

在 这 个 示意 图 中 ， 处 二 应 用 层 中 的 进程 通过 “打开 文件 号 ” 便 与 已 打开 文件 的 file 结构 相 联系 ， 
每 个 file 结构 代 发 着 对 一 个 已 打开 文件 操作 的 上 下 文 。 通 过 各 个 上 下 文 ， 进 程 使 用 各 个 文件 的 线性 过 
钳 空 间 进 行文 件 操作 。 对 于 普通 文件 ， 即 “ 低 栓 文件 ”文件 的 罗 辑 空间 在 文件 系统 层 内 按 具 体 文件 系 
统 的 结构 和 规则 喘 时 到 设备 的 线性 逻辑 空间 ， 然 后 在 设备 驱动 层 进一步 从 设备 的 迎 辑 空间 映射 到 其 物 
再 空间 。 这 样 ， 一 共 经 历 了 两 层 映射 。 或 者 ， 也 串 以 反 过 来 说 ， 磁 玲 设 备 的 物理 空间 经 过 两 层 抽象 而 
成 为 普通 文件 的 线性 逻辑 空间 。 而 对 十 “设备 文件 ” 则 文件 的 逻辑 空间 通常 吉 接 就 等 价 于 设备 的 逻辑 
空间 ， 所 以 在 文件 系统 层 就 不 需要 有 了 映射。 但 是 ， 也 有 些 设备 需 此 在 文件 系统 层 中 有 一 些 简单 的 映射 。 
从 图 中 还 可 以 看 出 ， 对 同一 个 设备 也 可 以 通过 不 同 的 文件 以 不 同 的 方式 来 操作 。 这 里 还 要 指出 ， 代 表 
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着 设备 文件 的 节点 都 要 通过 其 个 索引 节点 才能 寻访 ， 而 对 索引 节点 又 要 通过 一 些 日 录 节 点 才能 寻访 ， 
这 些 目录 节点 实质 上 相当 于 普通 文件 ， 所 以 人 笨 打 开设 备 文件 的 过 程 中 即 隐 合 着 对 普通 文件 的 操作 。 















File 结构 File 结构 File 结构 
设备 文件 
文件 系统 层 
从 普通 文件 的 逻辑 空间 : 
| 到 设备 逻辑 空间 的 映射 
: ER CEEWSER : EE "T l. E — 
物 埋 空 间 的 映射 、 物理 空间 的 映射 。 | 
物 埋 输入 输出 





图 8.1 设备 驱动 分 层 结 构 示 意图 


Unix( 以 及 Linux) 将 设备 分 成 两 大 类 。 一 类 是 像 磁 枪 那 样 以 记录 块 或 “ 户 区 ”为 单位 ， 上 成 块 进行 输 
入 /输出 的 设备 ， 称 为 “ 块 设备 ” BRA RRL TH CFT) 为 单位 ， 逐 个 进行 输入 /输出 的 
设备 ， 称 为 “字符 设备 ”。 文 件 系统 通常 都 建立 在 块 设备 上， 但 丰 也 并 碟 规 定 说 在 字符 设备 二 就 不 川 以 
建 并 文件 系统 。 通 过 数 十 个 的 发 展 ， 块 设备 和 宁 符 设备 之 间 的 界线 已 经 模糊 了 ， 但 还 是 沿用 着 这 样 的 
划分 。 两 类 设备 之 间 的 界线 之 所 以 变 得 模糊 ， 方面 是 由 十 传统 字符 设备 变 得 人 钝 米 愈 复杂 了 ， 为 ” 方 
面 是 出 现 了 一 些 既 像 是 块 设备 又 像 症 宁 符 设备 的 新 设备 。 例 如 ， 网 络 接口 下 网 是 这 样 的 设备 ， 说 它 站 
字符 设备 吧 ， 它 的 输入 /输出 却 是 有 结构 的 、 成 块 的 《 报 文 、 包 、 帧 );， 说 它 是 块 设备 吧 ， 它 的 “ 块 ” 
又 不 是 固定 大 小 的 ， 大 到 数 百 甚 全数 干 字 节 ， 小 到 几 个 字 节 。 鼎 设备 与 了 符 设 备 还 有 个 区 别 ， 奢 就 是 
块 设备 的 介质 必须 是 存储 介质 ， 并 昌 支 持 “ 随 机 访问 ”( 对 指定 地 址 的 访问 ，， 内 而 系统 调用 lseek( ) 对 
于 块 设备 是 不 可 缺少 的 操作 ; 向 字符 设备 的 介质 则 一 般 部 是 传输 介质 ， -上 般 具 支持 “上 顺序 访问 ”， 因 出 
leek ) 对 于 字符 设备 意义 不 大 。 从 这 个 意义 上 讲 ， 网 络 设备 当然 就 是 学 符 设 备 了 。 不 过 这 也 不 是 绝对 
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的 。 举 例 来 说 ， 存 Unix 系统 中 块 设 备 都 有 对 应 的 “原始 设备 ”。 例 如， 有 块 没 备 /devwhda， 则 必 有 另 一 
设备 /dev/rhda， 这 里 的 字符 “r” 表 示 “raw” 妈 “原始 ”的 意思 。 原 始 设 备 都 是 作为 学 符 设备 对 待 的 ， 
虽然 它们 的 介质 仍 为 存储 介质 , 并 且 也 支持 随机 访问 。( 在 Linux T, 不 青 为 块 设 备 提供 原始 设备 文件 ， 
因为 块 设备 在 安装 之 前 实际 上 就 相当 于 原始 状态 )。 所 以 ， 一 般 都 只 是 把 成 块 输入 /输出 并 且 打 算 在 上 
面 建立 普通 文件 系统 的 设备 才 称 为 “ 快 设备 ”。 

对 设备 的 这 种 类 别 划 分 并 不 是 一 个 理论 问题 ， 而 是 个 技术 问题 。 为 什么 呢 ? BEIDE, ERRA 
设备 的 文件 节点 中 记载 着 与 特定 设备 建立 连接 所 需 的 信息 。 这 种 信息 由 三 部 分 构成 ， 第 部 分 是 文件 
(包括 设备 ) 的 类 型 ， 第 二 部 分 是 一 个 “ 圭 设 备 号 ”， 第 三 部 分 是 一 个 “ 钦 设备 与 ”。 其 中 设备 类 型 和 
主 没 备 福 结 合 在 起 性 一 地 确定 了 设备 的 驱动 程序 及 其 界 | 出， 而 次 设备 号 则 说 明月 标 设备 是 同类 设备 


是 指 所 硝 “ 伪 终端 ”(Pseudo TTY) 设备 。 这 样 的 安排 从 Unix 的 早期 一 直 延 用 至 今 ， 出 才 非 容 的 考虑 
又 不 家 轻易 变动 ， 所 以 每 项 设备 都 得 非 此 即 彼 ， 或 划 入 块 设备 ， 或 划 入 字符 设备 ， 尽 管 有 些 设 备 确实 
非 驴 非 马 。 

从 早期 Unix AR- -ARH 8 位 的 主 设备 写 ， 这 就 把 块 设备 和 宁 符 设备 的 种 类 都 限制 到 了 256 种 ， 
坝 在 已 经 感到 不 够 用 S. MERANA. T Linux 源 代码 的 Documentation/devices.txt HOA LE 
备 号 分 配 到 了 194 号 。 男 一 方面 ， 从 早期 Unix 开始 就 把 所 有 的 设备 文件 节点》 都 放 华 /dev HRF, 
使 这 个 日 录 成 为 一 个 “平面 ”的 ， 出 不 是 树 状 的 有 层次 的 有 HH 录 。 当 目录 中 的 节点 数量 很 多 时 ， 就 会 合 
打开 这 些 文件 时 的 效率 受到 影响 。 而 且 ， 在 风格 上 也 与 文件 系统 中 其 他 的 部 分 不 一 笋 。 所 以 ， 人 们 提 
出 了 改进 的 方案 ， 就 是 把 设备 文件 都 放 在 一 个 树 状 的 特 儿 文 件 系统 devfs 中 。 显 然 ， 这 种 新 的 方案 比 原 
来 的 要 好 ， 而 且 在 现 有 文件 系统 的 框 涩 中 也 很 容 刀 实现 。 但 是 ， 新 的 方案 必须 与 原 有 的 蔷 容 ， 使 已 有 
的 应 用 软件 可 以 继续 运行 。 与 devfs 有 关 的 代码 部 仁 fs/devfs 中 ， 我 们 也 专门 写 了 一 节 如 以 介绍 。 丰 过 ， 
我 们 有 时 候 还 会 以 原来 半 面 结构 的 /dey 作为 实例 。 这 是 因为 日 采 老 的 方案 还 占 着 主导 地 位 ， 机 理 也 比 
较 简单 ， 壬 说 新 的 devfs 也 与 之 兼容 。 读 省 可 以 在 理解 了 基于 主 / 次 设备 号 的 设备 驱动 以 后 再 结合 devfs 
一 节 加 深 理解 。 

蜡 使 一 项 设备 在 系统 中 成 为 可 见 ， 成 为 应 几 程 序 可 以 访问 的 设备 ， 首 先 当然 是 要 在 文件 系统 中 有 
一 个 代表 此 项 设备 的 义 件 节点 ， 这 是 通过 系统 调 几 mknod( ) 实 现 的。 可 是 ， 更 重要 的 是 在 设备 驱动 层 
中 要 有 这 种 设备 的 驱动 程序 。 在 早期 的 操作 系统 中 (不 仅 是 Unix)， 没 备 驱动 程序 都 静态 地 连接 企 内 核 
中 。 可 是 ， 把 所 有 可能 的 设备 豫 动 程序 吏 连 接 人 到 内 核 小 显然 是 不 现实 的 ， 因 为 那样 会 使 内 核 的 体积 
到 不 合理 、 其 至 根本 无 法 运行 的 程度 。 所 以 ， 通 常 都 为 最 终 用 户 提供 一 个 “系统 生成 ”的 工 共 和 手段 ， 
让 用 户 根据 具体 的 需要 挑选 一 些 己 经 事先 编译 好 的 模块 , 同时 由 系统 牛 成 工具 对 以 高 级 语言 编写 的 “ 没 
备 表 ”加 以 修改 ， 仕 表 中 加 入 相应 阳 动 程序 的 鹃 数 指针 ， 然 后 加 以 编 译 并 将 所 挑选 的 模块 与 内 核 连 接 
在 一 起 。 

这 种 方式 给 用 户 带 来 了 很 多 不 便 ， 因 为 每 当 要 往 系统 中 增加 或 更 换 一 种 设备 时 就 必须 丹 进 行 次 
系统 生成 。 同 时 ， 随 痢 网 络 技术 的 发 展 ， 不 断 击 要 将 新 出 现 的 网 络 需 程 以 设备 驱动 的 形式 在 内 核 中 实 
现 ， 而 静态 连接 的 设备 驱动 程序 则 样 为 内 核 在 这 方 和 的 功能 更 新 和 升级 带 米 不 便 。Unix 在 这 方面 的 不 
中 在 一 个 时 期 内 阳 碍 了 它 的 进步 普 及 。 相 比 之 下 ， 曾 经 在 世界 范围 内 得 到 广泛 采用 的 DOS 操作 系统 
虽然 简陋 ， 但 是 却 提供 了 一 种 手段 称 为 TSR〈Terminate and Stay Resident)， 让 用 户 程序 可 以 动态 地 (在 
系统 运行 时 ) 把 一 段 可 执行 程序 “粘贴 ”到 操作 系统 上 ， 并 提供 了 系统 调 几 计 几 户 程序 可 以 改变 中 断 向 
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量 。 当 然 ，TSR 给 系统 的 安全 性 带 来 了 极 大 的 问题 ， 而 旦 对 十 像 Unix 这 种 多 用 户 、 多 进程 的 系统 它 根 
本 就 不 现实 。 但 是 不 可 否认 这 对 于 DOS 以 及 Windows CHE) Windows 3.1) WFA, DE PC 的 普及 
起 了 相当 大 的 作用 。 因 为 正 是 由 于 这 样 , 许多 PC 若 容 机 和 外 部 设备 的 厂家 才能 随时 向 用 户 提 供 更 加 新 
型 的 硬件 ， 同 时 提供 一 张 软 盘 让 册 户 动态 地 “安装 ”新 的 驱动 程序 。 

Unix 很 早 就 支持 所 请 “共享 库 程 序 ” 或 称 动态 连接 程序 库 ， 这 在 一 定 程度 上 组 解 了 这 个 问题 ， 可 
是 并 不 能 从 根本 上 解决 问题 ， 因 为 动态 连接 的 库 程序 起 在 用 广 空 间 运 行 的 《DOS BALA 2r FH P28 Ti) 
和 系统 空间 )。 确 实 ， 对 设备 的 许多 操作 可 以 在 用 户 空 间 小 实现 ， 而 只 把 物理 的 输入 和 输出 留 给 内 核 。 
但 是 那样 来， 设备 最 动 程序 和 设备 之 间 的 结合 就 个 紧密 ， 从 山 使 效率 降低 其 至 根本 不 能 运转 。 为 一 
方面 ， 对 于 像 Unix( 以 及 Linux) 这 样 的 系统 ， 当 然 不 能 照搬 TSR 一 类 的 机 制 CWindows 95/98, Windows 
NT 者 已 不 再 使 用 TSR)。 设 计 出 … 种 网 能 在 多 用 户 、 多 进程 环境 下 动态 地 安装 设备 最 动 程 序 ， 又 能 保 
持 内 核 安全 的 机 制 ， 就 成 为 对 设计 人 员 的 一 种 挑战 。 

可 安装 模块 正 是 在 这 样 一 种 背景 下 产生 的 。 可 安装 模块 《module) 是 经 过 编 详 但 尚未 连接 的 月 标 
代码 Co) 文件 ， 可 以 在 系统 运行 时 动态 地 “安装 ”到 内 核 中 。 这 种 动态 安装 既 可 以 由 特权 用 户 进行 ， 
也 可 以 由 内 核 在 有 需要 时 和 白 动 地 启动 (设想 在 网 络 坏 境 下 接收 到 了 :个 特殊 的 报 交 ， 亩 实 坝 这 种 报 文 
规程 的 模 鼎 尚未 装 入 )。 在 内 核 的 源 代码 中 可 以 规定 允许 “移出 ”(export〉 内 核 的 一 些 符号 ， 如 子 程序 
入 口 、 全 局 变量 等 ， 使 可 安装 模块 可 以 在 程序 中 调用 这 些 内 核 了 程序 或 访问 这 些 全 局 变量 。 对 这 些 符 
号 的 引用 是 在 模块 安装 的 时 候 连 接 解决 的 ， 所 以 安装 的 过 程 实际 上 就 包括 了 连接 的 过 程 。 山 于 连接 的 
部 分 对 象 已 经 装 入 内 存 并 且 已 在 运行 ， 所 以 是 动态 连接 。 例 如 ， 我 们 在 第 3 草 中 讲 到 内 核 中 有 个 伞 局 
量 jiffies， 这 个 变量 在 每 次 时 钟 中 断 时 部 要 递 措 ， 因 此 可 以 用 作 基 本 的 计时 于 段 。 假 定 在 个 可 安装 模 
块 中 需 旨 访问 这 个 变量 ， 就 吓 以 在 共 源 代码 中 把 它 说 明 为 “外 部 ”(extern) 变量 。 在 编译 时 ，gcc 知道 
这 是 一 个 需要 在 连接 时 解决 的 外 部 符号 ， 但 是 并 不 知道 这 个 变量 仕 哪 里 ， 所 以 就 将 其 地 址 暂时 空 着 ， 
留待 连接 时 再 米 填写 。 到 安装 模块 时 ， 应 用 程序 可 以 通过 系统 调用 问 内 核查 询 变量 jiffies 所 在 的 位 置 ， 
只 要 这 个 变量 是 允许 移出 的 ， 内 核 就 会 将 其 地 址 返回 给 应 用 程序 。 而 应 用 程序 则 将 其 地 址 填 入 该 模块 
中 所 有 访问 这 个 变量 的 指令 内 以 及 其 他 所 有 要 用 到 其 地 址 的 地 方 。 这 样 ， 变 量 jiffies m OER” Te 

这 些 符 号 连接 操作 是 由 -… 个 实用 程序 /sbin/insmod 完成 的 。 这 个 实 几 程序 不 但 负责 模块 与 内 核 的 连 
接 ， 也 负责 把 模块 的 日 标 文件 Go SEO RA” BATA, ALA, insmod 的 功能 与 1d 相似 ， 但 是 
insmod 所 进行 的 是 动态 的 (运行 时 的 ) 连 接 和 装 入 ,而 ld 所 进行 的 则 是 静态 的 连接 利 装 入 ,与 /sbin/insmod 
相对 应 , 还 有 一 个 实用 程序 /sbiy/rmmod， 其 作用 是 将 一 个 已 安装 的 模块 从 内 核 中 拆除。 当然, 像 insmod 
一 样 ， 上 只 有 特权 用 户 才 能 执行 rmmod. 

除 这 由 个 实用 程序 外 ，Linux 为 此 而 增设 了 若干 系统 调用 ， 可 安装 模块 机 制 主要 就 是 通过 这 些 系统 
调用 实现 的 。 在 本 章 中 ， 我 们 将 与 读音 ”起 阅 蕊 这些 系 统 调 用 的 代码 。 

在 这 里 ， 我 们 不 妨 将 可 安装 异 块 与 TSR 程序 作 简单 的 比较 (尽管 这 二 者 实际 上 并 没有 和 多 人 的 可 
ETE). Æ TSR BOR, BRS ARRAS CC. $0850 作 符号 连接 的 ， 而 只 能 根据 一 些 
约定 〈 将 这 些 变量 放 在 指定 的 地 址 上 ) 来 访问 “: 些 重 此 的 全 局 量 ， 以 及 通过 陷阱 指令 调用 由 BIOS 提 
供 的 功能 和 操作 。 例 如 INT 9 A Sz AS he BRE, INT 13 为 伐 检 操作 , 还 有 就 是 通过 INT21 进行 的 DOS 
系统 调用 ， 等 等 。 这 样 , 一 方面 内 核 中 的 很 多 资源 ( 除 系 统 调用 和 ”- 些 约定 的 变量 地 址 外 ) 并 未 向 TSR 
程序 开放 ， 而 另 一 方面 则 又 完全 不 设防 ， 一 个 TSR 程序 完全 可 以 为 所 欲 为 。 例 如 ， 在 某 个 条 件 满 由 时 
突然 通过 INT13 将 整个 磁盘 | 的 数据 全 部 写成 0。 交 任 这 点， 一 些 病毒 的 肆虐 和 恶劣 表现 就 不 中 为 
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Jo WTE Linux 的 可 安装 模块 中 ， 由 十 Linux 在 运行 时 与 BIOS 没有 关系 〈 仅 在 引导 时 用 到 BIOS), 
一 方面 几 是 由 内 核 “ 移 出 ”的 所 有 符号 都 可 以 在 模块 中 引用 ， 从 而 扩大 了 内 核 向 可 安装 模块 开放 的 资 
源 范 围 ， 为 一 方面 ， 除 这 些 特 意 移 出 的 符号 以 及 系统 调用 以 外 ， M EEEE AE 
核 中 的 资源 。 而 系统 调用 ， 特 别 走 用 于 文件 系统 操作 的 系统 调用 ， 是 受到 访问 权限 机 制 的 严格 控制 的 。 
这 样 ， 问 可 安装 模块 开放 的 子 程序 和 全 局 量 部 经 过 什 绸 的 权衡 ， ane 保证 这 些 资源 全 都 是 “无 毒 ” 
的 ， 也 还 有 基 后 一 道 防 线 ， 因 为 只 有 特权 用 户 才 能 安装 这 些 模 由 。 出 下， 由 于 Linux 内 核 的 源 代码 是 
会 开 的 ， 有 特殊 要 求 的 用 卢 还 可 以 对 移出 符号 的 名 单 加 以 调整。 例如 ， 要 是 知道 不 需要 安装 有 关 磁 检 
的 模块 ， 就 可 以 将 1L_rw_block( ) 等 有 关 块 设备 驱动 的 丽 数 从 内 核 的 “移出 名 单 ” 中 日 除 。 目 前 ， 可 安 
法 模块 机 制 是 作为 内 核 的 个 可 选项 提供 的 ， 用 户 可 以 让 编 详 内 核 时 通过 CONFG_MODULES 选择 包 
含 或 排除 对 这 种 机 人 制 的 支持 。 

设备 驱动 层 是 育 接 与 物理 设备 打交道 的 ， 人 在 实际 的 实现 中 则 因 系 统 的 结构 和 具体 设备 的 物理 特性 
而 有 不 同 的 驱动 方式 。 事 实 上 ， 多 数 设 备 都 赴 “ 中 断 驱 动 ” 的 ， 出 块 设备 往往 都 采用 DMA (“直接 访 
HAF 方式 ， 所 以 物理 设备 的 输入 /输出 从 本 质 上 说 大 多 是 异步 的 。 相 比 之 下 ， 文 件 操作 既 可 以 是 
同步 的 ， 也 可 以 是 异步 的 ， 但 是 多 数 情况 下 是 间 步 的 。 以 从 键盘 读 一 个 字符 的 过 程 为 例 ， 用 户 进程 通 
过 系统 调用 read( ) 企 狗 从 标准 输入 文件 读 一 个 字符 ， 但 是 真正 的 、 物 理 意义 上 的 从 键盘 读 入 通常 并 不 
是 发 牛 在 用 户 进程 调用 read ) 的 瞬间 。 如 果 在 此 之 前 几 户 已 经 按 了 键 ， 那 么 所 按 的 字符 已 经 通过 中 断 
服务 程序 读 了 进来 ， 放 在 缓冲 区 中 等 待 由 进程 读 取 ， 此 时 |: 述 read ) 操 作 立 刻 就 可 以 完成 而 返回 这 个 
字符 。 但 是 ， 如 果 缓 冲 区 中 没有 字符 可 读 ， 那 当前 进 称 通 常 就 要 睡眠 等 待 。 等 待 到 什么 时 候 呢 ? 等 待 
到 用 忆 按 键 的 时 候 ， 郝 是 异步 的 ， 也 就 是 无 法 预测 何 时 会 发 生 的 。 从 这 个 意义 上 说 ， 设 备 驱 动 程序 是 
土 层 的 同步 操作 与 底层 的 异步 操作 之 间 的 桥梁 。 

设备 驱动 程序 要 直接 访问 外 部 设备 或 其 接口 卡 上 的 物理 电路 ， 这 部 分 电路 通常 部 是 以 “寄存 器 ” 
形式 出 现 的 。 根 据 访问 外 部 设备 寄存 器 的 个 同方 式 ， 可 以 把 CPU 分 成 巾 大 类 。 -类 CPU 把 这 些 寄存 
缆 看 作 内 他 的 部分， 寄存 器 参与 内 存 统 “ 编 址 ， 访 问 寄 存 器 就 通过 一 般 的 访问 内 存 指令 进行 ， 所 以 
这 种 CPU 没有 专门 几 于 设备 VO 的 指令 。 这 样 的 CPU 有 M68K. Power PC 等 等 。 另 一 类 CPU 将 外 部 
设备 的 寄存 淮 看 成 “个 独立 的 地 址 室 间 ， 所 以 访问 内 存 指 令 不 能 用 米 访 问 这 些 寄存 器 ， 而 要 为 对 外 部 
设备 寄存 器 的 读 / 当 单独 设置 专用 的 指令 ， 如 in out 等 。i386 就 是 属于 这 一 类 的 CPU。 可 想 而 知 ， 跟 
这 些 寄存 器 直接 有 关 的 代码 是 因 处 理 器 而 异 的 。 

wl 1386 结构 的 CPU 而 言 ， 几 于 外 部 设备 寄存 器 读 / 写 的 指令 主要 就 是 两 条 ， 即 in 和 out. (AH, 
像 访问 内 存 指令 一 翌 ， 根 据 污 /与 的 对 象 为 字 节 、 字 或 长 字 人 向 有 inb/inw/inl 和 outb/outw/outl 等 变形 。 不 
过 ，Linux 内 核 的 代码 中 一 般 都 不 直接 使 用 这 些 指令 ， 而 将 这 些 函 数 “ 包 装 ” 在 一些 相应 的 函数 中 ， 这 
LERRA inb( )、outb()、inw( )、outw( )*%. 

读者 在 第 3 章 中 曾经 看 到 ， 内 核 由 有些 函 数 是 利 放 C 放言 的 编译 时 字符 帅 拼 接 功 能 、 由 gcc ETH 
处 理 阶 段 和 后 成 出 来 的 ,所 以 如 果 通 过 字符 帅 搜 索 上 只 (如 grep) 企 源 代码 中 搜索 这 些 函 数 的 定义 就 会 找 不 
到 。 这 里，inb( )、outb( ) 这 些 函 数 的 定义 也 是 这 样 ， 是 由 gcc 在 编 详 时 的 预 处 理 阶 段 根 据 一 些 宏 定义 生 
REKK. 下面 我 们 就 来 看 这 些 函 数 的 生成 ， 有 关 的 代 人 二 都 在 include/asm-i386/io.h F. 

先 看 outb( Youtw( Youtl( )[] 4 Ek: 








92 OUT (b, "b^, char) 
93 QUT (w, "w^, short) 
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94  . OUTG,, int) 
HAG OUTOJÉXUEX, HRIH: 
58 #define __OUT(s,sl,x) \ 
590 —  OUTl(sx)  OUT2(s,sl,^w^) : : “a” (value), "Nd" (port)); } ^ 
60 — OQUTl(sH& p,x)  OUT2(s,sl, w^) \ 
. FULL SLOW DOWN IO : : "a^" (value), "Nd" (port)):] V 


BREURSEX, OUTI, .OUT2LAE | FULL SLOW DOWN IO: 


52 Sdefine _ OUT1(s,x) ^ 


53 extern inline void out##s (unsigned x value, unsigned short port) { 
54 

55 define | OUT2(s, sl, s2) \ 

56 | asm  . volatile (“out” fts " %” sl “0,%” s2 ^1" 


46 define | FULL SLOW DOWN IO — SLOW DOWN IO 
38 define . SLOW DOWN IO “\njmp 1f\nl:\tjmp lf\nl:” 


经 过 gcc 的 预 处 理 以 后 ， 以 上 面 的 92 行为 例 ， 就 变 成 了 这 样 : 


extern inline void outb(unsigned char value, unsigned short port) { 
o asm volatile (“outb %b0, 9w1" : : "a^" (value), "Nd" (port); } 

extern inline void outb p(unsigned char value, unsigned short port) { 

| volatile (outb %b0, %w1” 

"imp 1f" 

"l1: imp 1f^ 

"1." 

: + "a" (value), “Nd” (port)? ; } 


asm . 


Xx B^EMLT WjA E -A4 outb( )， 还 有 一 个 是 oub pi) KIET outb, pC ) 中 在 输出 指令 以 
后 有 意 通 过 两 条 jmp 指令 引入 了 : 些 延 迟 。 有 些 外 设 寄 存 器 的 速度 比较 慢 ， 在 写 入 以 后 需 此 一 些 恢 复 
时 间 。 如 果 CPU 的 速度 太 快 ， 就 有 可 能 在 对 同一 寄存 器 的 连续 两 次 写 操作 之 间 隅 得 大 紧 而 使 寄存 器 来 
不 及 恢复 ， 在 这 种 情况 下 就 应 该 调用 outb_p( ili NE outb( )， 使 寄存 器 有 时 间 恢 复 。 此 外 ， 汇 编 指令 
中 的 %b0 Mowi KANO 的 宽度 为 8 位， 市 %1 的 宽度 为 16 位 。 还 可 以 看 出 ，%b0 小 的 b 是 从 92 行 传 
PRK, owl 中 的 w 则 是 固定 的 ( 见 59 和 60 行 )， 因 为 外 设 寄存 器 的 地 址 是 16 位 的 。 此 外 ， 变 基 
value Lj 4j fris eax 结合 ，port 与 %edx 结合 。 

同样 ， 根 据 93 利 94 行 会 分 别 生成 出 outw()、outw_p( )、outl() 以 及 outlp(). 

再 看 用 于 从 寄存 器 输入 的 inb( )、inw()、inl() 等 函数 的 牛 成 。 





82 Hdefine RETURN TYPE unsigned char 
83 ING,” 
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84 #undef RETURN TYPE 

85 #define RETURN TYPE unsigned short 
86 __IN(w, ””) 

87 #undef RETURN TYPE 

88 #define RETURN TYPE unsigned int 
89 ING,” 

90 8undef RETURN TYPE 


62 H#define . INI (s) V 

63 extern inline RETURN TYPE in##s (unsigned short port) { RETURN TYPE v; 
64 

65  #define __IN2(s, sl, s2) V 


66 . asm. volatile . ('in" 8s ' %” s2 "L,W" sl “0” 

67 

68 #define __IN(s,sl, i...) N 

69 __INi(s) __IN2(s,sl,"w’) : “=a" ( v) : “Nd” (port) ,##i); return v; } \ 
70 __ INI (s## p) __ 1N2(s, sl, w^) FULL SLOW DOWN IO \ 





: “=a” ( v) : "Nd" (port) ,##i ); return v; } 
读者 应 该 能 推导 出 ， 根 据 83 行 的 生成 结果 为 : 


unsigned char inb(unsigned short port) { 
unsigned char v; 
asm volatile (“inb %wl, %O”: “=a” ( v) : “Nd” (port),); return v; } 


unsigned char inb_p(unsigned short port) { 
unsigned char _v; 
asm . volatile ("inb %wl, %0” 
“jmp 1f” 
"Ar jmp if^ 
el. 
:“=a” (v) : “Nd” (port): 
return v; ] 


X HR PR EAS Be EE Dp E AU P EE TE ERES] 

最 后 偿 要 说 明 ， 由 才 设 备 的 多 样 忻 ， 设 备 最 动 是 一 个 需 归 整 本 专车 的 大 课题 ， 其 全 一 本 专著 还 不 
够 。 例 如 ， 在 drivers HR bP H3& net, atm, isdn 等 都 是 计算 机 网 络 论述 方面 的 内 容 ， 其 中 的 每 一 
部 分 都 是 需要 有 专著 加 以 介绍 ， 轴 不 是 三 言 两 语 讲 得 清 的 。 与 其 语 霹 不 详 地 讲 上 儿 负 ， 倒 不 如 留 竺 将 
来 ， 或 等 有 关 去 兰 的 出 现 ， 所 以 我 们 符 本 书 中 十 脆 跳 不 触及 这 些 话题 。 此 外 ， 有 些 设 备 本 身 的 原理 和 
机 制 就 很 复杂 (如 显示 设备 )， 需 要 有 考 普 加 以 介绍 。 我 们 既 无 足够 的 篇 幅 ， 也 缺乏 有 关 的 专门 知识 来 
深入 阐述 这 些 设备 的 际 理 、 机 制 和 操作 ， 而 只 能 专注 丁 它 们 的 驱动 程序 。 所 以 ， 我 们 在 本 书 中 只 能 集 
中 在 除 网 络 设备 〈 那 是 个 过 于 广阔 的 天 地 以 外 的 _ 些 典型 设备 的 驱动 程序 上 。 人 但是， 我们 相信 读 
者 在 埋 解 了 这 些 内 容 以 后 就 能 举 有 反 三 ， 将 基本 的 原理 与 实现 方法 推广 到 其 他 疫 备 。 男 外 ， 人 在 内 核 的 
代码 中 ， 对 同一 种 设备 常常 因为 针对 具体 产品 而 开发 了 大同 小 异 的 驱动 程序 ， 例 如 对 鼠标 右 就 有 好 几 
种 虹 动 程序 。 如 果 我 们 选择 了 某 个 具体 产品 的 硅 动 程序 作为 实例 ， 滥 只 不 过 是 它 的 代码 适合 用 作 实 例 ， 
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或 者 我 们 磁 巧 选择 了 这 些 代 码 作为 实例 ， 而 并 不 表示 我 们 倾 疝 于 或 催 爱 该 项 具体 的 产量 ， 遇 不 表 不 我 
A] up FE Ps mA d. 


8.2 ”系统 调用 mknod( ) 


“设备 文件 ”是 义 件 系统 中 代表 设备 的 特殊 文件 。 与 普通 的 义 件 相 比 ， 设 备 文件 仁 磁 盘 或 答 主 
文件 系统 所 在 的 其 他 设备 ) 上 只 占 ，: 个 索引 节点 ， 而 没有 任何 用 于 存放 数据 的 记录 块 与 之 相 联系 。 汉 
然 ， 这 赴 因 为 设备 文件 的 日 的 并 不 在 于 存储 和 读 取 数据 ， 而 只 在 十 为 应 用 程序 提供 -条 通 向 具体 设备 
的 访问 途径 ， 使 应 用 程序 可 以 跟 有 具体 设 备 建立 起 连接 。 可 想 而 知 ， 既 然 没 有 用 于 数据 的 记录 眉 ， 则 家 
引 节点 中 的 记录 块 映 象 表 (对 于 Ext2 文件 系统 来 说 是 ext2_inode 结构 中 的 数组 block[ D MRATA 
用 处 了 。 所 以 ， 在 这 种 情况 下 就 用 这 个 数组 中 的 第 一 个 元 素 ， 即 i_block[0]， 记 载 昌 标 设备 的 设备 与。 
对 十 Ext2 普通 文件 ， 这 个 数组 中 的 元 素 在 文件 创建 之 初 都 是 空 的 ， 只 是 在 写 文件 时 才 随 着 记录 块 的 分 
配 而 写 入 具体 的 内 容 〈 见 “文件 的 读 与 写 汪 ;而 对 十 设备 文件 ， 则 必须 在 创建 时 就 将 其 所 代表 的 设备 
号 写 入 这 个 数组 的 第 一 个 元 素 中 。 在 “文件 系统 ”一 草 中 我 们 已 经 看 到 ， 普 通 文件 《以 及 某 些 特殊 文 
件 ) 可 以 通过 系统 调用 open( ) 创 建 ， 只 此 在 调用 参数 中 将 O_CREAT 标志 位 设 成 1， 就 可 以 让 open( ) 
在 目标 文件 不 存在 时 先 创 建 这 个 文件 。 此 外 , 也 可 以 通过 系统 调用 creat( ) 创 建文 件 , 事实 上 sys_creat( ) 
就 是 通过 sys_open( ) 实 现 的 。 可 是 ， 这 两 个 系统 调用 都 个 能 用 来 创建 设备 文件 ， 因 为 设备 文件 的 创建 
需 此 有 -一 个 参数 来 传递 设备 号 , 而 系统 调用 open( )I creat( ) 的 界 而 都 不 包括 这 个 参数 .实际 上 ,从 Unix 
的 早期 就 为 设备 文件 的 创建 另外 设置 了 - :个 系统 调用 mknod( )， 并 且 起 沿 用 至 今 。 

系统 调用 mknod( ) 是 通用 的 ， 可 以 几 来 创建 任何 类 型 的 文件 ( 除 目 录 外 )， 包 括 普 道 文件 、 特 殊 文 
件 以 及 设备 文件 ,不 过 , 由 十 其 他 类 型 的 文件 大 都 各 专用 的 系统 调用 , 旭 普 通 文件 可 以 册 open( ) 或 creat( ) 
创建 ,FIFO 文件 可 以 用 pipe( ) 创 建 ,所 以 mknod( ) 主 要 用 于 设备 文件 的 创建 。 此 外 ,不 像 open( ) 和 creat( ) 
那样 集 创建 与 打开 十 一 身 ，mknod( ) 只 是 纯粹 的 创建 。 

TEASER, mknod( ) SELL sys_mknod() 实 现 的 ， 其 代码 在 fs/namei.c P: 





1205 asmlinkage long sys_mknod(const char * filename, int mode, dev_t dev) 
1206 { 

1207 int error = 0; 

1208 char * tmp; 

1209 struct dentry * dentry; 

1210 struct nameidata nd; 

121] 

1212 if (S_ISDIR (mode) ) 

1213 return -EPERM; 

1214 tmp = getname (filename) ; 

1215 if (IS ERR (tmp) ) 

1216 return PTR ERR (tmp) ; 

1217 

1218 if (path init (tmp, LOOKUP PARENT, &nd)) 
1219 error = path walk(tmp, &nd): 

1220 if (error) 
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1221 goto out; 

1222 dentry = lookup create (&nd, 0); 

1224 error = PTR ERR(dentry) ; 

1224 if (IS ERR(dentry)) { 

1225 switch (mode & S IFMT) | 

1226 case 0: case S IFREG: 

1221 error = vfs_create(nd. dentry-^d inode, dentry, mode) ; 
1228 break; 

1229 case S IFCHR: case S IFBLK: case S IFIFO: case S IFSOCK: 
1230 error = vfs mknod(nd. dentry—>d_inode, dentry, mode, dev) ; 
1231 break; 

1232 case S_IFDIR: 

1233 error = -EPERM; 

1234 break; 

1235 default: 

1236 error = -EINVAL; 

1237 } 

1238 dput (dentry) ; 

1239 } 

1240 up (&nd. dentry->d_ inode->i sem); 

1241 path release (&nd) ; 

1242 out: 

1243 putname (tmp) ; 

1244 

1245 return error; 

1246 } 


参数 dev 即 为 设备 号 ， 其 类 型 为 dev_t， 实 际 上 是 一 个 16 位 的 无 符号 短 整 数 ， 有 关 的 定义 见 
include/asm_i386/posix_type.h 以 及 include/linux/types.h: 


10 typedef unsigned short _ kernel dev t; 
14 typedef | kernei dev t dev t; 


这 个 16 位 的 无 符号 整数 实际 上 :分 成 两 部 分 ， 其 高 8 HARI “CERES”, 而 低 8 位 
WAT) :类别 内 的 序号 。30 年 前 ，256 种 不 同 的 块 设备 ， 髓 加 256 种 不 同 的 字符 设备 ， 每 种 设备 又 可 
以 有 多 全 256 台 ， 似 乎 已 是 不 可 筷 议 的 了 。 但 是 ， 现 在 再 来 看 ，8 位 的 主 设备 号 和 次 设备 号 的 覆盖 面 和 
容量 确实 显得 小 了 。 可 是 ， 在 用 户 界 面 上 ， 也 就 是 在 系统 调用 界面 上 ，--- 旦 把 设备 号 定义 为 16 位 无 符 
号 整数 后 就 不 能 改 涩 了， 除非 能 找到 一 种 与 原来 兼容 的 方案 ， 否 则 就 要 引起 兼容 性 问题 。 人 在 系统 调用 
和 失 面 书 经 定义 的 前 近 下 ， 解 决 的 办 法 无 非 束 是 设法 既 扩 类 容量 又 使 新 老 界面 歉 容 〈 显 然 很 难 )， 或 者 增 
添 狐 的 系统 调用 〈 现 在 没有 ) 或 新 的 机 制 〈 如 前 述 的 树 状 设 备 文件 子 系统 )， 或 者 甚 全 二 管 齐 下 。 但 是 ， 
对 于 内 核 中 的 内 部 使 用 却 不 受用 户 界 面 的 限制 。 所 以 ， 作 为 扩大 设备 号 容量 的 准备 ， 又 在 
include/linux/kdev.h 中 定义 子 另 一 个 数据 类 型 kdev_t: 


67 typedef unsigned short kdev_t; 
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这 个 数据 类 型 明 前 仍 是 16 位 的 ， 但 是 其 意图 显然 是 在 条 件 成 熟 时 改 成 32 位 。 

在 sys_mknod( ) 的 代码 中 ， 只 有 vfs_mknod( ) 是 读者 尚未 看 到 过 的 。 文 件 系 统 的 vfs Ez E RIS BS ER 
数 有 一个 , Bl vfs create( ). vfs mkdir( ) 以 及 vfs mknod( )。 其 中 vfs create( ) 用 十 普通 文件 , vfs_mkdir( ) 
用 十 目录 节点 ,而 vfs_mknod( ) 则 用 于 特殊 文件 ， 包 括 FIFO、 插 口 以 及 字符 设备 和 块 设备 文件 的 创建 。 
至 于 /proc 目录 下 的 特殊 文件 ， 则 一 般 是 由 内 核 生成 ,而 不 是 由 用 户 创建 的 ， 这 一 点 读者 企 “ 文 件 系 统 ” 
一 章 中 已 经 看 到 过 了 。 

pe ft vfs mknod( ) 的 代码 也 在 fs/namei.c FP: 





[sys mknod( ) > vfs mknod( )] 


1176 int vfs mknod(struct inode *dir, struct dentry *dentry, int mode, dev t dev) 
1177 f 


1178 int error - -EPERM; 

1179 

1180 mode &= "current-»fs-^umask; 

1181 

1182 down(&dir-^i zombie); 

1183 if ((S TSCHR(mode) || S ISBLK(mode)) && 'capable(CAP MKNOD)) 
1184 goto exit lock; 

1185 

1186 error = may create(dir, dentry) ; 

1187 if (error) 

1188 goto exit lock; 

1189 

1190 error = —EPERM; 

1191 if ('!dir->i op || !dir->i_op—>mknod) 
1192 goto exit lock; 

1193 i 

1194 DQUOT_INIT (dir); 

1195 lock kernel ( ); 

1196 error = dir-^i op-^mknod(dir, dentry, mode, dev); 
1197 unlock kernel ( ); 

1198 exit lock: 

1199 up(&dir- i zombie): 

1200 if (terror) 

1201 inode dir notify(dir, DN CREATE); 
1202 return error; 

1200  ) 


参数 dir 是 一 个 inode 结构 指针 ， 指 向 待 创建 设备 文件 的 父 节 点 , 妈 其 所 在 目录 节点 的 inode Zi, 
这 是 在 sys_mknod( ) 中 通过 path_walk( ) 找 到 的 。 第 二 个 参数 dentry， 则 指向 代表 着 (如 果 己 经 存在 ) 或 将 
要 代表 待 创建 设备 文件 节点 的 日 录 项 dentry 数据 结构 。 这 个 数据 结构 是 在 sys_mknod( ) 中 通过 
lookup. create( ) 在 内 核 中 的 dentry 结构 杂凑 表 中 找到 或 者 新 创建 的 。 
进入 vfs mknod( ) 以 后 , 首先 是 对 权限 的 检验 。 以 前 讲 过 ,每 个 进程 的 fs. struct 结构 小 有 个 访问 权 
KBE RAZED umask， 每 当 一 个 进程 要 求 创建 文件 时 ， 就 用 这 个 位 多 将 用 户 通过 参数 mode 表达 的 “ 非 分 
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之 想 ” 都 过 小 掉 (1180 行 )。 对 权限 的 检验 分 册 步 进行 。 第 一 步 是 capable(CAP_MKNOD)， 即 检验 当前 


第 二 步 ， 即 may_create( )， 则 适用 于 所 有 节点 ， 其 代 公 读者 已 在 “文件 的 打开 与 关闭 ”- : 节 中 见 到 过 ， 
此 处 就 不 重复 了 。 这 个 曙 数 中 还 包含 了 对 日 标 节点 是 谷 业 已 存在 的 检验 。 显 然 ， 如 果 已 经 存在 就 不 允 
许 重复 创建 了 。 此 外 ， 由 二 我 们 在 这 里 并 不 关心 磁极 容量 配额 的 问题 ， 所 以 跳 过 DOUOT_INIT( ). 

创建 设备 节点 的 具体 操作 因 文 件 系 统 而 异 ， 由 具体 文件 系统 通过 其 inode_operations 结构 中 的 函数 
指针 mknod 提供 。 对 于 Exo, 3X PAGE ext2, mknod( )， 其 代 但 在 fs/ext2/namei.c 中 ， 





[sys mknod( ) > vfs_mknod( ) > ext2_mknod( )] 


386 static int ext2_mknod (struct inode * dir, struct dentry *dentry, 
int mode, int rdev) 


387 { 

388 struct inode * inode — ext2 new inode (dir, mode): 
389 int err = PTR ERR(inode); 

390 

391 if (IS ERR(inode)) 

392 return err; 

393 

394 inode->i uid = curroent-^fsuid; 

395 init special inode(inode, mode, rdev): 
396 err = ext2 add entry (dir, dentry >d_name. name, dentry—>d name. len, 
397 inode); 

398 if (err) 

399 goto out no entry; 

400 mark inode dirty (inode) ; 

401 d instantiate(dentry, inodo); 

402 return 0; 

403 

404 out no entry: 

405 inode->i nlink--; 

406 mark inode dirty (inode) ; 

407 iput (inode) ; 

408 return err; 

409} 


首先 通过 ext2_new_inode( ) 分 配 一 个 inode 数据 结构 , 这 个 函数 的 代码 读者 也 已 经 看 到 过 了 。 然后 ， 
联 定 设置 这 个 数据 结构 ， 包 招 将 设备 号 写 入 到 该 数据 结构 中 ， 这 是 通过 init_special_inode( ) 完 成 的 。 实 
际 奎 ， 设 备 节 总 《以 及 其 他 特殊 文件 节点 ) 的 特殊 之 处 也 止 在 于 此 。 这 个 申 数 的 代码 在 fs/devices.c H: 


[sys. mknod( ) > vfs mknod( ) > ext2 mknod( ) > init special inode( )] 


200 void init special inode(struct inode *inode, umode t mode, int rdev) 
201 { 

202 inode->i_mode = mode; 

203 if (S ISCHR(mode)) { 
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204 inode->i_fop = &def_chr_fops; 
205 inode->i_rdev = to kdev_t (rdev) ; 
206 ) else if (S ISBLK(mode)) { 

207 inode->i fop = &def blk fops; 
208 inode->i rdev = to kdev t(rdev); 
209 inode->i bdev = bdget (rdev) ; 

210 ) else if (S_ISFIFO (mode) ) 

211 inode->i_fop = &def filo fops; 
212 else if (S ISSOCK (mode) ) 

213 inode->i fop = &bad sock fops; 
214 else 

215 printk(KERN DEBUG” init special inode: bogus imode (%o)\n", mode); 
216  ] 


这 里 主要 是 对 两 个 结构 成 分 的 设置 ， 一 个 是 file operations 结构 指针 i fop, EET HITS 
结构 def_chr_fops 或 def. blk fops; 另 一 个 是 几 来 保存 设备 号 的 i_rdev。 注 意 在 这 里 参数 rdev WRAN 
int( 而 不 是 dev_()， 而 inode 结构 中 i_rdev 的 类 型 就 是 上 述 的 kdev_t。 目 前 ，kdev_t 仍 是 16 位 的 ， 从 用 
户 进程 传递 下 来 的 设备 号 也 是 16 位 的 ， 如 果 把 它 看 成 32 位 整数 的 话 ， 则 其 高 16 位 总 是 0。 但 是 将 来 
在 系统 调用 mknoed() 的 界面 上 可 以 把 设备 号 的 类 型 从 dev, t 改 成 int， 而 根据 其 高 16 位 是 否 为 0 确定 所 
用 的 是 16 位 设备 号 还 是 32 位 设备 号 ， 从 而 保持 与 点 有 界面 兼 突 。 同 时 ， 对 Kdev t 的 定义 也 可 以 从 16 
位 改 成 32 位 。 为 了 这 个 目的 ， 内 核 代 码 中 已 经 提供 了 一 对 inline 函数 to_kdev t( ) 和 kdev_t_to_nr( )， 
用 来 进行 二 者 间 的 转换 。 代 是 目前 这 种 转换 只 是 从 16 位 到 16 位 ， 实 际 上 不 起 什么 作用 ， 看 一 下 
include/linux/kdevt. b 中 的 函数 to_kdev_t( ) 的 代 碍 就 可 以 明白 这 一 点 : 


87 static inline kdev t to_kdev_t(int dev) 
88 { 

89 int major, minor; 

90 #if 0 

91 major = (dev >> 16); 

92 if (!major) { 


93 major - (dev >> 8); 

94 minor = (dev & Oxff); 
95  ] else 

96 minor = (dev & Oxffff); 
97 Helse 


(dev >> 8); 
(dev & Oxff); 


98 major 


99 minor 
100 #endif 
101 return MKDEV(major, minor) ; 
102 } 


这 里 条 件 编译 “##f 0” 下 面 这 一 块 就 由 为 将 来 准备 的 ， 读 “下 这 部 分 代码 就 可 以 明白 32 位 的 设备 
号 怎样 与 16 位 的 设备 号 保持 兼容 。 
EF, inode 结构 中 有 两 个 类 型 为 kdev_t 的 字段 。 一 个 是 i_rdev， 用 于 该 索引 节点 所 代表 说 
备 (例如 /dev/tty0) 的 设备 号 ， 归 “个 是 idev， 用 于 索引 节点 所 在 设备 〈 例 旭 /dewhdal， 假 定 目 录 /dev 
31 
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在 这 个 设备 上 ) 的 设备 号 。 
对 于 块 设备 ，inode 结构 中 还 有 个 指针 i_bdev， 它 指向 一 个 block device 数据 结构 ， 财 就 起 具体 块 
设备 的 控制 结构 ， 定 义 于 include/linux/fs.h: 


377 struct block device | 


378 Struct list head bd hash; 

379 atomic t bd count; 

380 /* struct address space bd data; */ 

38] dev t bd dev; /* not a kdev t - it's a search key */ 
382 atomic t bd openers; 

383 const struct block device operations *bd op; 

384 siruct semaphore bd sem; /* open/close mutex */ 

385  ]); 


里 面 有 个 指针 bd. op 指向 个 block device operations 结构 ， 那 就 是 这 个 设备 的 函数 跳 转 表 。 内 核 
中 为 块 设备 设置 了 个 杂凑 表 bdev hashtable[ 1]， 每 当 首次 创建 或 打开 某 个 块 设备 文件 时 就 为 其 创建 - 
个 block_device 结构 ,并且 根 据 设 备 号 的 杂凑 但 将 此 结构 通过 队列 头 bd_hash 挂 入 杂凑 表 的 其 个 队 询 中 ， 
以 使 查找 。 

在 init. special. inode( ) 中 , 通过 函数 bdget( ) 根 据 设备 号 找到 或 者 创建 给 定 设备 的 block, device 数据 
结构 ， 其 代码 在 fs/block_dev.c F: 


[sys mknod( ) > vfs mknod( ) > ext2 mknod( ) > init special inode( ) > bdget( )] 


429 struct block device *bdget(dev t dev) 


430 d 

431 struct list head * head = bdev hashtable + hash (dev): 
432 struct block device *bdev, *new bdev; 
433 spin lock (&bdev lock); 

434 bdev = bdfind(dev, head) : 

435 spin unlock(&bdev lock); 

436 if (bdev) 

437 return bdev; 

438 new bdev = alloc bdev( ): 

439 if (Inew bdev) 

440 return NULL; 

441 atomic set(&new bdev-^bd count, 1); 
442 new bdev-^bd dev = dev; 

443 new bdev->bd op = NULL; 

444 spin lock(&bdev lock); 

445 bdev = bdfind(dev, head); 

446 if (!bdev) ( 

447 list add(&now bdev-^bd hash, head); 
448 spin unlock (&bdev_ lock); 

449 return new bdev; 

450 ) 

451 spin unlock(&bdev lock); 
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452 destroy_bdev (new_bdev) ; 
453 return bdev; 
454  ] 


首先 是 试 着 和 在 杂 凌 表 bdev hashtable[ ] 里 的 相应 队列 中 通过 bdfind( 3K, UR ES SER fo CD 
437 行 )。 要 是 找 不 到 ， 那 就 要 通过 alloc_bdev( ) 分 配 个 数据 结构 。 由 于 在 alloc bdev ) 的 过 程 中 当前 
进程 有 可 能 进入 睡 上 要， 所 以 在 分 配 到 了 以 后 还 要 再 调用 bdfind( F : 遍 ， 以 防 因 别 的 进程 抢先 为 同 
一 设备 分 配 了 数据 结构 而 造成 冲突 。 在 确认 并 未 造成 冲突 以 后 ， 就 将 该 数据 结构 挂 入 相应 的 杂凑 队列 
路。 值得 注意 的 是 ， 这 里 只 是 将 数据 结构 中 的 指针 bd op 初始 化 成 NULL， 而 将 这 个 指针 的 落实 留待 
第 一 次 打开 这 个 设备 文件 的 时 候 。 读 者 在 “文件 系统 的 安装 与 拆卸 ”一 节 中 曾 看 到 ， 在 安装 文件 系统 
时 通过 get_blkfops( ) 根 据 设 备 的 主 设备 号 取得 指向 其 block device operations 结构 的 指针 ， 就 是 因为 在 
安装 时 隐 含 着 打开 块 设备 文件 的 操作 。 

回 到 ext2_mknod( ) 的 代码 中 ，ext2_add_entry( ) 将 新 创建 的 节点 加 进 所 在 日 录 人 在 磁盘 上 的 目录 文件 
中 , mark_inode_dirty( ) 将 新 创建 的 inode 结构 设置 成 * 脏 ” 而 d_instantiate( ) 则 使 内 存 中 的 目录 项 dentry 
结构 与 inode £EFJIBL AEE LEY, ERA MOAB UAT. UFR inode 结构 设置 
成 了 “ 脏 ”， 内 核 在 “ 辣 步 ”内 存 中 的 inode 结构 与 磁盘 证 的 索引 节点 的 时 候 ， 就 会 将 这 个 inode 结构 
的 内 容 写 到 磁盘 上 分 配给 这 个 文件 的 索引 节点 ， 即 ext2 inode 数据 结构 中 。 出 于 ext2_inode 结构 中 并 - 
不 存在 i_rdev 这 么 个 成 分 ， 而 对 于 设备 文件 却 又 不 需 旧 使 用 i block[ ] 数 组 ， 所 以 就 挪用 其 i block[0] 
来 保存 设备 号 。 归 了解 这 一 点 ， 我 们 不 妨 看 一 下 文件 fslext2/inode.c +H FR ext2_update_inode( ) 代 码 的 





1211 if (S ISCHR(inode-^i mode) || S_ISBLK(inode->i_mode)) 

1212 raw inode-^i block[0]-cpu to le32(kdev t to nr(inode— i rdev)); 
1213 else for (block = 0; block < EXT2 N BLOCKS; block++) 

1214 raw inode->i block[block] = inode->u. ext2 i.i datal[block]; 


这 里 的 raw. inode 是 一 个 ext2, inode 结构 指针 ， 而 inode 是 一 个 inode 结构 指针 。 这 二 者 一 个 是 存 
储 在 做 稚 上 的 索引 节点 ， 见 一 个 是 索引 节点 在 内 存 中 的 表现 ， 但 是 二 者 在 内 容 上 并 不 完全 相同 ，inode 
结构 中 含有 许多 动态 的 信息 。 如 果 inode ARRA PN TI MIR, MIAH DY ext2_inode 结构 中 
IJ i_block[OJH TF iki E >, FLA AGRA inode 结构 中 的 i_rdev (REIR “Little Ending”). HAR, 
则 i_block[ ] 数 组 中 各 个 元 紊 的 内 容 来 月 inode 结构 中 ext2_inode_info 部 分 的 data ] 数 组 的 相应 元 床 ， 
AE “ 些 总 接 或 间接 地 指 丫 各 个 数据 记录 块 的 指针 。 

反 过 来 ， 当 通过 ext2 read inode( ) 从 磁盘 | 谈 入 家 引 季 点， 并 为 之 在 内 存 中 创建 相应 的 inode 结构 
时 ， 则 先 将 i_block{ ] 数 组 全 部 复制 到 i data[ ] 数 组 由， 然后 如 果 是 设备 义 件 就 调用 init. special, inode( ) 
将 i_block[0] 的 内 容 (MA “Little Ending” 转 换 回 CPU SrtA Wy lal) SRA inode 结构 中 的 i_rdev。 人 以 下 
是 ext2_read_inode( ) 中 有 关 的 片断 〈 见 fs/ext2/inode.c): 


1052 /* 

1053 * NOTE! The in-memory inode i data array is in little-endian order 
1054 * even on big-endian machines: we do NOT byteswap the block numbers! 
1055 */ 
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1056 for (block = 0; block < EXT2 N BLOCKS; block++) 
1057 inode->u. ext2 i.i data[block] = raw_inode->i_block [block] ; 
1058 

1059 if (inode-^i ino == EXT2 ACL IDX INO || 

1060 inode-»i ino == EXT2 ACL DATA INO) 

1061 /* Nothing to do */ ; 

1062 else if (S TSREG(inode-^i mode)) { 

1066 } else if (S ISDIR(inode-^i mode)) | 

1069 } else if (S ISLNK(inode-^i mode)) { 

1076 } else 

1077 init special inode(inode, inode->i mode, 

1078 le32 to cpu(raw inode— i block[0])); 


ixg XP] BS EH init special inode( ). 

对 二 设备 文件 ， 将 ext2_inode 结构 中 的 i_block[ ] 数 组 复制 到 inode 结构 中 的 i_dataf ] 数 组 实际 上 十 
没有 意义 的 。 至 十 inode 结构 中 的 block. device 结构 指针 i_bdev， 则 本 来 就 是 动态 的 ， 所 以 根本 就 不 保 
few ERES AT 
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TER 1 章 我 们 就 曾 提 到 ，Linux 采用 的 是 整体 式 的 内 核 结构 《monolithic kernel)， 这 种 结构 的 内 
核 - 般 不 能 动态 地 增加 新 的 功能 。 为 此 ，Linux 提供 了 一 种 伞 新 的 机 制 ， 叫 (可 安装 ) “PER” (module). 
利用 这 个 机 制 ， 可 以 根据 第 要， 仕 不 必 对 内 核 重 新 编译 连接 的 条 件 下 ， 将 可 安装 模块 动态 地 插入 运行 
中 的 内 核 ， 成 为 内 核 的 一 个 有 机 组 成 部 分 式 者 从 内 核 移 走 已 经 安装 的 模块 。 正 是 这 种 机 制 ， 使 得 内 
核 的 内 存 映 象 保持 最 小 ， 但 却 具有 很 大 的 灵活 性 和 可 扩充 性 。 

可 安装 模块 古 可 以 在 系统 运行 时 动态 地 安装 和 拆卸 的 内 核 软件 。 痰 格 说 来 ， 这 种 软件 的 作用 并 不 
限于 设备 驱动 ， 例 如 有 些 文件 系统 就 是 以 可 安装 模块 的 形式 实现 的 。 但 是 ， 另 一 方面 ， 它 主要 用 来 实 
现 设 备 驱动 程序 或 者 与 设备 驱动 窜 切 相关 的 部 分 (如 文件 系统 )， 所 以 我 们 将 它 放 在 本 章 中 介绍 。 

AMAR HL, Ain 4 SRAM CRRA RRA, CR 
create module( ). init module( ). query. module( ) 以 及 delete_module(). i, FA? - 般 不 需要 间接 距 
这 些 系 统 调用 打交道 ， 而 可 以 几 系 统 提供 的 芽 具 /sbin/insmod〔 择 入 模块 ) 和 /sbin/frmmod 〈 移 走 模块 ) 
米 安 装 和 拆 趣 可 安装 模块 。 当 然 ， 这 两 个 上 其 最 终 还 是 要 通过 这 些 系统 调用 完成 有 关 操 作 。 大 体 上 说 ， 
/sbin/insmod 所 做 的 事情 有 这 么 一 些 : 

e 。 打开 待 安装 模块 并 将 其 恋 入 到 用 户 空 间 。 所 谓 “ 模 上 岂 ” 就 是 经 过 编译 但 未 经 连接 的 .o 文件 。 

e ”模块 中 必定 有 SERRARA LITS AREARE), 对 这 些 符号 的 引 几 必须 连 

接 公 内 核 中 的 相应 符号 ， 也 就 是 必须 把 这 些 符 号 在 内 核 映 象 中 的 地 址 填 入 模块 中 需要 访问 这 

此 符号 的 指令 中 以 及 数据 结构 中 。 为 此 日 的 ， 和 需要 通过 系统 调用 query, module( ) 向 内 核 淘 问 

这 些 答 号 在 内 核 出 的 地 址 。 如 果 内 核 多 许 “ 移 出 ”这 些 符号 的 地 址 ， 就 会 返回 有 关 的 “符号 
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的 某 些 函数 ， 备 则 模块 中 的 函数 束 得 不 到 执行 ， 横 块 的 存在 也 就 失去 了 普 义 。 从 这 个 意义 上 
说 ， 模 块 与 内 核 的 连接 只 完成 了 一 六 ， 我 们 不 妨 称 之 为 “完成 了 单 向 连接 ”的 模块 映 象 。 
然后 ， 通 过 系统 调用 create_module( ) 在 内 核 中 创建 A module 数据 结构 ， 并且“ 预订 ”所 而 
的 系统 《内 核 ) 空间 。 
最 后 ， 通 过 系统 调用 init_module( ) 把 用 户 空 间 中 完成 了 单身 连接 的 模块 映 象 逆 入 内 核 空间 ， 
再 调用 模块 中 -个 名 为 init module ) 的 函数 .注意 , 不 要 把 可 安装 模块 中 的 函数 init. module( ) 
与 系统 调用 init_module( ) 摘 混淆 了 ， 这 完全 是 两 码 事 。 系 统 调用 init_module( ) 在 内 核 小 的 实 
HLH: sys init module( )， 这 是 由 内 校 提供 的 ， 整 个 内 核 中 只 有 这 么 个。 而 模块 中 的 函数 
init module( )， 则 是 由 可 安装 模 鼎 本 身 提供 的 ， 千 个 模块 都 有 这 样 一 个 函数 。 通 常 ， 每 个 模 
块 的 init module( fst ml At “id” ARR PID : 些 包 含 者 函数 指针 的 数据 结构 《例如 
file operations 结构 )。 完 成 了 这 种 登记 以 后 ， 模 块 与 内 核 之 间 的 连接 (为 一 个 方 癌 上 的 连接 ) 
才 真 下 完成 了 。 


顾名思义 ， 系 统 调用 delete_module( ) 将 模块 的 module 结构 释放 ， 并 卫 将 模块 映 象 所 占 的 内 核 空间 
释放 。 此 外 , 还 有 一 件 重要 的 事情 就 是 调用 模块 中 一 个 名 为 cleanup. module( ) 的 函数 。 与 init module() 
函数 一 样 ， 个 个 可 安装 模块 都 有 上 其 自己 的 cleanup_module( ) 际 数 。 通常 ,在 这 个 消 数 中 由 向 内 核 撤销 对 
山本 模块 提供 的 数据 结构 (从 而 函数 指针 ) 的 登记 ， 使 内 核 在 模块 拆 凶 以 后 不 全 寸 骨 企图 访问 这 些 数 
BA ARRAK. 

Pil, REE 4 个 系统 调用 的 代码 ， 然 后 再 通过 “个 实际 的 模块 来 看 一 上 下 典型 的 init module( ) 
函数 和 cleanup_module( OPAŽ. K% sys_create_module( ). sys init module(). sys query module(), Xf 
有 sys_delete_module( ) 的 代码 部 在 kernel/module.c 路。 


874 
875 
876 
877 
878 
879 
880 
881 
882 
883 
884 
885 
886 
887 


NAR sys query, module( ). 


asmlinkage long 
sys query module(const char *name user, int which, char *buf, size t bufsize, 
size t *ret) 
{ 
struct module *mod; 
int err; 


lock kernel ( ); 
if (name user =~ NULL) 
mod ~ &kernel module; 
else { 
long namelen; 
char *name; 
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888 if ((namelen = get_mod_name(name_user, &name)) < 0) { 
889 err = namelen; 

890 goto out; 

891 ] 

892 err = —ENOENT: 

893 if (namelen == 0) 

894 mod = &kernel module; 

895 else if ((mod = find module (name)) == NULL) { 
896 put mod name (name) : 

897 goto out; 

898 } 

899 put_mod_name (name) ; 

900 } 

901 

902 switch (which) 

903 { 

904 case 0: 

905 err = Q; 

906 break; 

907 case QM MODULES: 

908 err = qm moduies(buf, bufsize, ret): 
909 break; 

910 case QM DEPS: 

911 err = qm deps(mod, buf, bufsize, ret); 
912 break; 

913 case QM REFS: 

914 err - qm refs(mod, buf, bufsize, ret); 
915 break; 

916 case QM SYMBOLS: 

917 err - qm symbols(mod, buf, bufsize, ret); 
918 break; 

919 case QM INFO: 

920 err - qm info(mod, buf, bufsize, ret); 
921 break; 

922 default: 

923 err = -EINVATL ; 

924 break: 

925 } 

926 out: 

927 unlock kernel ( ); 

928 return err; 

929 } 


参数 name, user 为 查询 对 象 所 在 模块 的 模块 名 ,如 果 这 个 指针 为 0 即 指 内 核 本 身 。 参 数 which 表示 
查询 的 内 容 ， 如 QM. SYMBOLS 表示 查询 月 标 模块 的 符号 表 , QM_MODULES 表示 伪 询 内 核 中 已 安装 
模块 的 清单 ， 而 QM_DEPS 则 查询 给 定 模块 对 其 他 模块 的 依赖 《如 果 模 块 A 引用 模块 B 中 的 符号 ， 则 
A 依赖 十 B)。 查 询 的 结果 通过 缓冲 区 buf 返回 。 


- 136 . 


第 8 章 HARZ) 


每 个 已 安装 模块 在 内 核 中 都 有 -个 module 数据 结构 (通过 系统 调用 create_module( ) 创 建 )， 
include/linux/module.h 中 定义 了 module 以 及 一 些 有 关 的 数据 结构 : 





37 struct module_symbol 


38 d 

39 unsigned long value; 

40 const char *name; 

4 — ge 

42 

43 struct module ref 

44 { 

45 struct module *dep; /* “parent” pointer */ 
46 struct module *ref; /* “child” pointer */ 
47 struct module ref *next ref; 

48}; 

49 


50 /* TBD */ 
5l struct module persist; 


52 

53 struct module 

54 | 

55 unsigned long size of struct: /* == sizeof(module) */ 
56 struct module *next; 

57 const char *name; 

58 unsigned long size; 

59 

60 union 

61 { 

62 atomic t usecount; 

63 long pad; 
"64 ) uc; /* Needs to keep its size - so says rth */ 
65 

66 unsigned long flags; /* AUTOCLEAN et al */ 
67 

68 unsigned nsyms; 

69 unsigned ndeps; 

10 

71 struct module symbol *syms; 

12 struct module ref *deps; 

13 struct module ref *refs; 

14 int (*init) (void); 

15 void (*cleanup) (void); 

16 const struct exception table entry *ex table start; 
71 const struct exception table entry *ex table end; 
18 Bifdef | alpha _ 

79 unsigned long gp; 

80 #endif 
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81 /* Members past. this point are extensions to the basic 

82 module support and are optional. Use mod member present ( ) 

83 to examine them. */ 

84 const struct module persist *persist start; 

85 const struci module persist *persist end; 

86 int (kcan unload) (void) ; 

87 int runsize; /* In modutils, not currently used */ 

88 const char *kallsyms start; /* All symbols for kernel debugging */ 
89 const char *kallsyms end; 

90 const char *archdata start; /* arch specific data for module */ 

91 const char *archdata end; 

02 const char *kernel data; /* Reserved for kernel internal use */ 
93 HH 


这 里 主 上 要 定义 了 二 种 数据 结构 ,第 一 种 数据 结构 是 module symbol, 每 个 module, symbol 结构 描述 
了 一 个 符号 ， 包 括 符 号 名 及 其 所 在 的 地 址 ， 或 者 说 符号 的 值 。 第 二 种 是 module_ref， 用 米 描述 模块 间 
的 依赖 关系 。 最 后 就 是 module 结构 。 内 核 中 的 module 结构 通过 它们 的 指针 next 连 成 一 个 链 。 每 个 模 
块 部 有 个 模块 名 name, size 则 为 模块 的 大 小 ， 函 数 指针 init 和 cleanup 分 别 指向 模块 的 init_module( ) 
和 cleanup module( ) 函 数 。 指 针 syms 指向 一 个 module symbol 结构 数组 ， 商 nsyms 指明 了 数组 的 大 小 ， 
此 即 为 模块 的 符号 表 。 对 模块 中 的 其 体 符号 是 否 放 在 其 符号 表 中 也 是 可 以 选择 的 ， 对 此 我 们 还 将 详细 
介绍 。 指 针 deps 指向 一 个 module ref 结构 数组 ，ndeps 则 为 该 数组 的 大 小 。 这 个 数组 中 的 每 “个 元 素 
AMS ETS] dep 指向 一 个 module 结构 ， 这 些 就 是 给 定 异 块 所 依赖 的 模块 。 要 安装 一 个 模块 时 ， 这 个 
模 岂 所 依赖 的 所 有 模块 都 必须 已 经 安装 好 。 与 依赖 关系 dep) 方向 相反 的 是 “被 引用 ”关系 ref. P 
是 说 ， 如 果 模 块 A 引用 了 模块 B 中 的 符号 ， 则 A ART B. 或 者 说 B 被 A 引用。 注意 这 里 的 所 谓 “ 依 
i”, EN "dep", 实际 上 就 是 “引用 ” 只 不 过 是 主动 语 仿 的 “引用 ” df “ref” WE RBA “OLR”, 
所 以 一 者 方向 相反 。 

如 条 A 依赖 于 B， 则 模 央 A 的 deps 数组 中 有 一 个 元 素 指 向 模块 B。 但 足 ， 光 有 这 样 的 联系 还 不 够 


模块 依赖 于 B CURA, M B 还 有 “有 用户” 而 不 能 拆除 )。 所 以 ， 在 module 结构 中 还 有 个 指针 refs, 
它 指向 一 个 module ref 结构 链 ,， 链 中 的 每 个 结构 都 通过 指针 ref 指向 一 个 依赖 于 它 的 模块 ,并且 就 在 那 
个 模块 的 deps 数组 中 。 在 我 们 这 个 例子 中 ， 模 志 A 的 deps 数组 中 就 应 该 有 这 人 么 一 个 module. ref 结构 ， 
其 指针 dep 指 四 B; 指针 ref 则 指向 A 白 身 ， 并 且 通 过 链接 指针 next ref HEA B 的 refs 链 中 。 这 样 ， 从 
RR A 出 发 ， 通 过 其 deps 数组 就 能 找到 A 所 依赖 的 所 有 模块 ， 包 括 B 在 内 。 反 过 来 ， 从 模块 B 出 发 ， 
则 通过 其 refs 链 就 能 找到 所 有 引用 了 B 的 模块 ， 包 括 A 在 内 。 这 里 ,“ 依 赖 ” 关 系 是 静态 的 ，- -个 模 
块 依 牧 寺 哪 几 个 模块 是 固定 的 ， 模 块 一 经 实现 ， 这 一 点 就 定 下 来 了 ， 所 以 适合 于 使 用 数组 。 而 反 过 来 ， 
“被 引用 ”关系 则 是 动态 的 ， 一 个 异 块 被 几 个 模块 引用 随时 都 可 能 变动 ,所 以 要 采用 动态 的 module ref 
SERGE CBU SAR). 

EAR AIPA en SOR BR, Hs. NER. HSA RRS, KRAT eee eR 
可 以 简化 程序 设计 ， 所 以 为 内 核 也 定义 了 个 module 结构 ， 从 kernel module 开始 ， 所 有 已 安装 模块 
的 module 结构 都 链接 在 一 起 成 为 一 条 链 ， 内 核 中 的 全 局 量 module list 就 指向 这 条 链 。 

此 处 建议 读 少 先 不 忙 往 下 看 ， 先 把 前 面 介绍 的 三 个 数据 结构 以 及 相互 之 间 的 联系 整理 - TR, BK 
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图 。 这 对 理解 异 导 机 制 渡 代码 会 有 好 处 。 
理解 了 了 这 几 个 数据 结构 ，sys_query_module( ) 的 代码 就 很 简单 了 。 如 前 记述 ， WREX name, user 
为 NULL 就 表示 但 询 的 对 象 为 内 核 本 身 ， 其 module 结构 即 kernel. module, 这 总 在 kernel/module.c 中 


41 static struct module kernel module = 

42 { 

43 size of struct: sizeof(struct module), 
44 name: ^ 

45 uc: {ATOMIC_INIT(1) }, 

46 flags: MOD RUNNING, 

47 syms: __start___ksymtab, 
48 ex table start:  ,siart, | ex table, 
49 ex iable end: = stop, ex table, 
50 kallsyms start: | start . kallsyms, 
51 kallsyms_ end: _stop__ kallsyms, 
52^ .33 


凡是 不 出 现在 初始 值 定义 中 的 字段 “如 deps 和 refs 等 等 )， 其 值 均 为 0 或 NULL. TR, 内 核 没 
有 init_module( ) 和 cleanup_module( ) 这 两 个 函数 ， 因 为 相应 的 函数 指针 都 是 NULL. 同时 ， 内 核 没 有 
deps 数组 ， 开 始 时 也 没有 refs HE. Ne, 这 个 数据 结构 中 的 指针 syms TIS) | start... ksymtab.. Regi +e 
内 核 符号 表 的 起 始 地 址 。 符 号 表 的 大 小 nsyms 为 0， 但 是 在 系统 初始 化 时 会 在 函数 init_modules( ) 中 将 
其 设置 成 正确 的 数值 。 

如 果 参 数 name, user 不 是 NULL， 材 就 是 但 询 一 个 特定 的 模块 了 。 所 以 在 通过 get_mod_name( ) 从 
用 户 空间 复制 模块 名 以 后 就 通过 find_module( ) 在 队列 module. list 中 寻找 相应 的 module EK. IX BRI 
数 的 代码 也 在 kernel/module.c 中 : 


fsys_query_module( ) > find_module( )] 


993 /* 
994 * Look for a module by name, ignoring modules marked for deletion. 
995 * / 
996 


997 struct module * 
998 find module (const char *namc) 


999 { 

1000 struct module *mod; 

1001 

1002 for (mod = module list; mod ; mod = mod->next) | 
1003 if (mod >flags & MOD DELETED) 

1004 cont inue; 

1005 if (!stremp(mod-^name, name)) 

1006 break; 

1007 j 

1008 
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1009 return mod; 
1010 — ) 


至 于 对 具体 查询 的 服务 ， 即 qm_modules( )、qm_symbols ( )、qm_deps( ) 等 等 ， 则 很 简单 了 。 我 们 
看 “下 kernel/module.c 中 函数 qm_deps( ) 的 代码 : 


[Sys query. module( ) > qm. deps( )] 


101 static int 
702 qm deps(struct module *mod, char *buf, size t bufsize, size_t *ret) 
703. d 


704 Size t i, space, len; 

105 

706 if (mod == &kernel module) 

1707 return -EINVAL; 

708 if (!MOD CAN QUERY (mod) ) 

709 if (put user(0, ret)) 

110 return —EFALLT; 

711 else 

712 return 0; 

713 

714 Space = 0; 

715 for (i = 0; i < mod ?ndeps; ++i) { 
716 const char *dep name = mod >deps[i]. dep->name: 
717 

718 len = strlen(dep_name) +1: 

719 if (len > bufsize) 

720 goto calc_space needed; 
721 if (copy to user(buf, dep name, len)) 
722 return -EFAULT; 

123 buf += len; 

724 bufsize -= len; 

725 space *- len; 

726 } 

727 

728 if (put_user(i, ret)) 

729 return -EFAULT; 

730 else 

731 return 0; 

132 

733 calc space_needed: 

134 Space += len; 

735 while (++i € mod—>ndeps) 

736 space += strlen (mod->deps|i]. dep-^name) +1; 
737 

738 if (put user(space, ret)) 

739 return -EFAULT; 
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else 
return —ENOSPC: 


系统 调用 返回 0 表示 成 功 ， 此 时 参数 ret 所 指 的 整数 含有 所 依赖 模块 的 个 数 ，Ifi buf 中 则 为 这 些 模 
块 的 模块 名 。 否 则 表示 执行 失败 ， 出 错 代 公 为 ENOSPC 表示 buf 的 空间 太 小 ， 此 时 ret 所 指 的 整数 含有 
所 需 的 空间 大 小 。 这 些 代码 就 不 需 此 解释 了 ， 其 他 几 个 也 是 - 样 ， 有 兴趣 的 读者 可 以 日 己 阅 读 。 


再 看 系统 调用 create_module( ) 3: Bl sys_create_module( )， 也 在 kemel/module.c FP: 


/* 


* Allocate space for a module. 


asmlinkage unsigned long 
sys_create_module (const char *namc_user, size t size) 


{ 


char *name; 
long namelen, error: 
struct module *mod; 


if (!capable(CAP SYS MODULE) ) 
return —EPERM; 
lock kernel( ); 
if ((namelen = get mod name(name user, &name)) < 0) | 
error = namelen; 
goto errO; 
} 
if (size < sizeof(struct module)+namelen) | 
error = -EINVAL ; 
goto errl; 
} 
if (find module(name) != NULL) { 
error = -EEXIST; 
goto errl; 
} 
if ((mod = (struct. module *)module map(size)) == NULL) | 
error - —ENOMEM; 
goto errl; 


j 


memset (mod, 0, sizeof (*mod)) ; 
mod->size of struct ~ sizeof Ckmod); 
mod->next = module list; 
mod-»name = (char *) (mod + 1); 
mod->size = size; 
memcpy ((char*) (mod+1), name, namelen*1); 
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313 

314 put mod name (name); 
315 

316 module list - mod; /* link it in */ 
317 

318 error - (long) mod; 
319 goto err0; 

320 errl: 

321 put mod name (name); 
322 err0: 

323 unlock kernel ( ); 
324 return error; 

325 } 


只 有 特权 用 户 才 人 允许 在 内 核 中 创建 模块 ，capable(CAP_SYS_MODULE) 就 是 对 当前 进程 是 否 有 这 
种 特权 的 检查 。 参 数 size 表示 模块 的 大 小 ， 包 括 模块 的 映 象 本 身 以 及 一 个 module 结构 的 大 小 ， 再 加 上 
模块 名 的 长 度 。 显 然 ，size 至 少 也 得 等 于 后 两 者 的 和 ， 和 否则 就 肯定 错 了 。 模 块 是 以 模块 名 来 惟 dud 
以 标识 的 ， 所 以 先 要 通过 find module( ) 检 查 ， 看 是 否 已 经 有 同名 的 模块 存在 。 通 过 了 所 有 这 些 检验 以 
Ja, 就 调用 module_map( ) 分 配 空间 。 对 于 1386 结构 的 CPU, module_map( ) 在 include/asm_i386/pgtable.h 
中 定义 为 vmalloc( ): 


T #define module map(x) vmal loc (x) 


分 配 得 的 空间 的 开头 用 作 模 块 的 module 数据 结构 ( 见 307 47), 然后 是 模块 名 字符 串 ( 见 312 行 )。 
注意 这 里 (mod+1) 表示 从 mod 所 指 的 地 址 加 上 一 -个 module 结构 大 小 的 地 方 。 最 后 剩 下 的 用 十 模块 的 
映 象 。 显 然 ， 新 建立 的 module 结构 基本 上 是 空 的 ， 其 内 容 有 待 于 从 用户 空间 传递 过 来 。 

对 模块 的 module 结构 加 以 初始 化 ， 并 将 其 链 入 module list 前 端 (JL 309 4781316 行 )。 此 后 ， 创 
建 模块 的 操作 就 完成 了 ， 系 统 调用 返回 内 核 中 为 这 个 模块 所 分 配 的 空间 地 址 。 下 - - 步 是 系统 调用 


init_module( )。 


刘 前 所 述 , 在 系统 调用 init_module( ) 之 前 要 由 应 用 程序 在 用 户 空 间 完 成 模块 与 内 核 符号 闻 的 连接 ， 
这 个 过 程 与 “连接 ” HU ld 的 过 程 相似 。 申 于 这 是 在 用 户 空间 完成 的 ， 不 属于 内 核 的 活动 ， 所 以 我 们 
不 深入 到 这 个 过 程 中 去 了 ， 有 兴趣 的 读者 可 以 从 GNU 网 站 下 载 insmod 的 源 程序 白 己 阅读 。 

相 比 之 下 ，sys_init_module( ) 的 代码 ( 见 kernel/module.c) 就 比较 大 了 ， 我 们 分 段 阅 读 。 


[sys_init_module( )] 


327 /* 

328 * Initialize a module. 
329 */ 

330 


331 asmlinkage long 
332 sys_init_module (const char *name_user, struct module *mod user) 
333. 4 
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334 struct module mod tmp, *mod; 
335 char *name, *n name, *name_tmp = NULL; 
336 long namelen, n namelen, i, error; 
337 unsigned long mod_user_size; 
338 struct module ref *dep; 
339 
340 if (!capable(CAP SYS MODULE)) 
341 return -EPERM; 
342 lock kernel( ); 
343 if ((namelen = get mod name(name user, &name)) < 0) { 
344 error = namelen; 
345 goto errO; 
346 } 
347 if ((mod = find module (name)) == NULL) { 
348 error = -ENOENT; 
349 goto errl; 
350 ) 
391 
352 /* Check module header size. We allow a bit of slop over the 
353 size we are familiar with to cope with a version of insmod 
354 for a newer kernel. But don’t over do it. */ 
355 if ((error = get user(mod user size, &mod user->size_of_struct)) != 0) 
356 goto erri; 
357 if (mod user size < (unsigned long)&((struct module *)OL)-^»persist start 
358 || mod user size > sizeof(struct module) + l6*sizeof(void*)) | 
359 printk(KERN ERR "init module: Invalid module header size. \n” 
360 KERN ERR “A new version of the modutils is likely ^ 
361 "needed. \n”) ; 
362 error = -EINVAL; 
363 goto errl; 
364 } 
365 
366 /* Hold the current contents while we play with the user's idea 
367 of righteousness.  */ 
368 mod tmp = *mod; 
369 name tmp = kmalloc(strien(mod->name) + 1, GFP KERNEL); 
/* Where' s kstrdup( )? */ 
370 if (name tmp == NULL) { 
371 error = -ENOMEM; 
372 goto errl; 
373 } 
374 strcpy (name_tmp, mod—>name) ; 
315 
376 error = copy from_user (mod, mod_user, mod_user_ size) ; 
377 if (error) 1 
378 error = -EFAULT; 
379 goto err2; 
380 ) 
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381 

382 /* Sanity check the size of the module.  */ 

383 error = —EINVAL; 

384 

385 if (mod->size > mod tmp. size) | 

386 printk(KERN ERR ^init module: Size of initialized module ” 
387 "exceeds size of created module. m^); 

388 goto err2; 

389 F 

390 


首先 还 起 对 仅 限 的 检验 。 接 着 就 是 从 用 卢 空间 复制 模块 和 名， 并 通过 find modulet ) 从 module list 
找到 目标 模块 的 module 数据 结构 。 在 系统 调用 init_module( ) 之 前 ， 应 用 程序 要 在 用 广 空间 为 目标 模块 
准备 一 个 module 数据 结构 ， 并 且 将 指向 这 个 结构 的 指针 作为 参数 传 给 内 核 ， 这 就 是 这 里 的 指针 
mod_user。 此 时 内 核 中 虽然 已 经 由 sys_create_module( ) 创 建 了 目标 模 庆 的 module 数据 结构 ， 但 是 这 个 
数据 结构 基本 上 还 是 空 的 ， 其 内 容 只 能 米 白 用 户 空 间 。 现 在 ， 就 要 把 用 户 空 间 module 结构 的 内 容 复制 
到 内 核 中 的 对 应 module 结构 中 。 可 起 ， 由 十 版 本 等 等 的 原因 ， 用 户 空间 的 module 结构 有 可 能 与 内 核 
中 的 不 完全 一 样 。 为 了 防止 因 用 户 空 间 的 module 结构 与 内 核 中 的 module 结构 大 小 不 符 而 造成 肪 烦 ， 
先 把 用 户 空间 module 结构 中 的 size. of. struct 字段 复制 过 来 加 以 检查 。 在 module 数据 结构 的 定义 中 ， 
从 persist, start 开始 的 三 个 指针 是 内 核对 这 个 数据 结构 的 扩充 ， 用 户 空间 的 module 结构 有 可 能 并 个 包 
括 这 些 字段 (读者 不 妨 试 一 下 “man init_module” 看 看 》， 所 以 检查 其 大 小 时 的 条 件 之 一 是 不 小 于 结构 
中 persist. start 以 前 的 那 一 部 分 。 同 时 , 这 个 大 小 也 不 能 超过 内 核 中 module 结构 的 大 小 加 上 16 个 指针 ， 
B64 个 字 节 的 位 置 。 遂 过 了 对 结构 大 小 的 检查 以 后 ， 先 把 内 核 中 的 module 结构 和 暂时 保存 在 堆栈 中 作 
为 后 备 ( 见 368 行 )， 然 后 就 从 用 户 空间 复制 其 module 结构 。 复 制 时 是 以 内 存 中 的 module 结构 大 小 为 
准 的 ， 以 免 “ 溃 坏 ” 内 核 中 的 内 存 空间 。 复 制 过 来 以 后 ， 还 要 核对 “新 版 ” 数据 结构 中 指明 的 模块 大 
小 与 原来 “ 顶 约 ”的 模块 大 小 是 否 一 致 ( 凡 385 行 )。 

通过 了 对 结构 大 小 的 检验 以 后 ， 下 一 步 就 是 怜 查 结构 中 内 容 的 合理 人 性。 继续 年 看 ， 





[sys_init_module( )] 


391 /* Make sure all interesting pointers are sane. */ 

392 

393 if (!mod_bound(mod->name, namelen, mod)) | 

394 printk(KERN ERR "init module: mod-^name out of bounds. m^): 
395 goto err2; 

396 } 

397 if (mod->nsyms && !mod_bound (mod->syms, mod-^nsyms, mod)) | 
398 printk(KERN ERR "init module: mod->syms out of bounds. m/): 
399 goto err2; 

400 I 

401 if (mod >ndeps && !mod_bound(mod->deps, mod->ndeps, mod)) { 
402 printk(KERN ERR ^init module: mod->deps out of bounds. \n”) : 
403 goto err2; 

404 } 
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if (nod->init && !mod bound(mod->init, 0, mod)) 1 
printk(KERN ERR "init module: mod-^init out of bounds. Wn); 
goto err2; 

} 

if (mod-»cleanup && !mod bound(mod-»cleanup, 0, mod)) { 
printk(KERN ERR "init module: mod->cleanup out of bounds. n^); 
goto err2; 

} 

if (mod->ex table start > mod->cx_table_end 
|| (mod->ex table start && 

! ( (unsigned long)mod->ex_table start >= 
( (unsigned long)mod + mod->size_of_struct) 
&& ((unsigned long)mod->ex_table_end 
< (unsigned long)mod + mod->size))) 

|| (C(unsigned long)mod->ex table start 

- (unsigned long)mod-^ex table end) 
% sizeof(struct exception table entry))) | 
printk(KERN ERR "init module: mod >ex table * invalid. W^); 
goto err2; 

} 

if (mod->flags & ~MOD_AUTOCLEAN) { 
printk (KERN ERR "init module: mod->flags invalid. n^); 
goto err2; 

} 

Hifdef ^ alpha 

if (!mod bound(mod-^gp - 0x8000, 0, mod)) { 
printk(KERN ERR "init module: mod->gp out of bounds. n^); 
goto err2; 

} 

#endif 

if (mod member present (mod, can unload) 

&& mod->can unload && !mod bound(mod-^can unload, 0, mod)) | 
printk(KERN ERR "init module: mod->can unload out of bounds. n^); 
goto err2; 

} 

if (mod member present(mod, kallsyms end)) | 
if (mod->kallsyms end && 

(!mod bound(mod-^»kallsyms start, 0, mod) || 
Imod bound(mod-^kallsyms end, 0, mod))) | 
printk(KERN ERR "init module: mod->kallsyms out of bounds. n^); 
goto err2; 
} 
if (mod >kallsyms start > mod->kallsyms_end) { 
printk (KERN ERR "init module: mod >kallsyms invalid. W^); 
goto crr25 
} 
} 


if (mod member present(mod, archdata end)) | 
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452 if (mod-^archdata end && 

453 (!mod bound(mod-^»archdata start, 0, mod) || 

454 {mod bound(mod-»archdata end, 0, mod))) { 

455 printk(KERN ERR "init module: mod->archdata out of bounds. W^); 
456 goto err2; 

457 ] 

458 if (mod-^archdata start > mod-»archdata end) { 

459 printk(KERN ERR "init module: mod-^archdata invalid. n^); 
460 goto err2; 

461 } 

462 } 

463 if (mod member present (mod, kernel data) && mod->kernel data) { 
464 printk(KERN ERR "init module: mod->kernel data must be zero. n); 
465 goto err2; 

466 ) 

467 

468 /* Check that the user isn’t doing something silly with the name. */ 
469 

410 if ((n namelen = get mod name(mod-^name - (unsigned long)mod 

471 + (unsigned long)mod user, 

472 &n name)) < 0) { 

473 printk(KERN ERR "init module: get mod name failure. m^); 

414 error - n namelen: 

475 goto err2; 

476 } 

477 if (namelen != n namelen || strcmp(n name, mod tmp.name) != 0) | 
478 printk (KERN ERR "init module: changed module name to ^" 

479 ”%s” from %s’ \n’, 

480 n name, mod tmp. name); 

481 goto err3; 

482 } 

483 


这 里 的 宏 操 作 mod_bound( ) 用 来 检查 由 用 户 提供 的 指针 所 指 的 对 象 是 否 落 在 模块 的 边界 内 ， 定 义 
于 include/linux/module.h. 


133 /* Check if an address p with number of entries n is within 
the body of module m */ 
134 #define mod bound(p, n, m) \ 
((unsigned long) (p) >= ((unsigned long) (m) + ((m)—>size of struct)) && \ 
135 (unsigned long) ((p)*(n)) <= (unsigned long) (m) + (m)->size) 


以 第 393 行 对 模块 名 的 检验 为 例 ， 要 检查 的 是 modue 结构 中 的 指针 name 指向 为 该 模块 分 配 的 组 
冲 区 内 部 ， 但 是 又 不 落 在 module 结构 的 内 部 ， 同 时 ， 长 度 为 namelen 的 字符 串 又 不 越 出 模块 缓冲 区 的 
边界 。 简 音 之 ， 这 个 字符 串 从 必须 在 模块 映 象 的 范围 内 。 类 似 地 ， 如 采 模 块 的 符号 表 以 及 deps 数组 非 
空 ， 则 也 必须 落 在 为 模块 分 配 的 缓冲 区 中 、module 结构 外 。 不 光 是 对 指向 数据 结构 的 指针 ， 对 前 数 指 
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针 也 是 …- 样 ，init_module( ) 和 cleanup_module( ) 两 个 函数 必须 在 模块 映 象 的 范围 中 。 

在 模块 映 象 中 也 可 以 包含 对 异常 的 处 理 。 发 生 于 一 些 特殊 地 址 上 的 异常 ， 可 以 通过 一 种 描述 结构 
exception, table entry 规定 对 异常 的 反应 和 处 理 ， 这 些 描述 结构 在 可 执行 映 象 连接 时 都 被 集中 企 一 个 数 
组 中 (内 核 的 exception table entry 结构 数组 为 __start___ex_table[ ])。 当 异常 发 生 时 ， 内 核 的 寞 党 啊 
应 程序 会 先 搜 索 这 个 数组 ， 看 看 是 否 对 所 发 生 的 异常 (根据 异常 发 生 时 的 地 址 》 规 定 了 特殊 的 处 理 。 
我 们 在 第 3 章 中 曾 讲 到 过 有 关 的 情景 ， 读 者 可 以 回 过 去 看 一 下 。 当 内 核 支持 可 安装 模块 时 ， 其 弄 常 响 
应 程序 会 扫描 module_list， 对 于 已 安装 的 每 个 模块 都 搜索 其 异常 处 理 描述 表 《〈 如 前 所 述 ， 内 核 本 身 也 
被 看 作 是 一 个 模块 )。 理 所 当然 ， 每 个 模块 的 异常 处 理 描述 表 也 必须 在 模块 映 象 的 范围 内 。 虽 然 对 异常 
处 理 描 述 表 的 检验 没有 使 用 宏 操 作 bound， 但 是 其 精神 是 一 致 的 。 之 所 以 在 这 里 不 使 用 bound， 是 因为 
异常 处 理 描述 表 是 以 起 点 和 终点 而 不 是 起 点 加 长 度 来 界定 其 范围 的 。 

内 核 中 module 结构 内 的 最 后 “个 字段 是 函数 指针 can_unload， 但 是 这 属于 module 结构 的 扩充 部 
^, 用户 空 间 的 module 结构 可 能 包括 也 可 能 不 包括 这 个 字段 。 如 果 包 括 了 这 个 字段 ， 那 就 也 要 保证 这 
个 指针 指向 模块 的 喘 象 内 部 。 那 么 ， 怎 样 才 能 知道 用 户 空间 的 module 结构 是 否 包 括 这 个 字段 呢 ? 方法 
是 检查 这 个 结构 的 大 小 , 为 此 目的 定义 了 一 个 宏 操 作 mod_member_present, 它 是 在 module.h 中 定义 的 : 





125 /* When struct module is extended, we must test whether the new member 


126 is present in the header received from insmod before we can use it. 
127 This function returns true if the member is present. */ 

128 

129  &define mod member present (mod, member) \ 

130 ((unsigned long) (&((struct module X*)OL)-^member + 1) \ 

131 <= (mod)—>size_of struct) 


最 后 ， 对 于 模块 名 还 要 作 一 番 检 验 。 虽 然 在 前 面 已 经 根据 参数 name, user 从 用 户 空 间 复制 了 作为 
系统 调用 参数 的 模块 名 ,但 是 这 个 模块 名 是 否 与 用 户 空间 module 结构 中 所 指示 的 模块 名 一 敏 呢 ? 显然 ， 
不 能 排除 不 一 致 的 可 能 性 ， 所 以 现在 要 根据 module 结构 的 内 容 把 模块 映 象 中 的 模块 名 也 复制 过 来 ， 再 
与 原先 使 用 的 模块 名 比较 〈 见 470 至 477 行 )。 

经 过 了 所 有 这 些 检验 以 后 ， 可 以 从 用 户 空间 把 模块 的 映 象 复制 过 来 了 。 我 们 往 卜 看 : 


[sys_init_module( )] 


484 /* Ok, that's about all the sanity we can stomach; copy the rest. */ 
485 

486 if (copy from user((char *)mod*mod user size, 
487 (char *)mod usertmod user size, 
488 mod->size-mod user size)) { 

489 error = —EFAULT; 

490 goto err3; 

49} } 

492 

493 if (module arch init (mod) ) 

494 goto err3; 

495 
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/* On some machines it is necessary to do something here 
to make the I and D caches consistent. */ 
flush icache range((unsigned long)mod, (unsigned long)mod + mod->size) ， 


mod->next = mod tmp.next; 
mod->refs = NULL; 


/* Sanity check the module’ s dependents */ 
for (i = 0, dep = mod deps; i < mod->ndeps: ++i, +tdep) { 
struct module *o, *d = dep->dep: 


/* Make sure the indicated dependencies are really modules. */ 
if (d == mod) { 
printk(KERN ERR "init module: self-referential ^ 
"dependency in mod->deps. W^); 
goto err3; 


/* Scan the current modules for this dependency */ 
for (o = module list; o !- &kernel module && o != d; o = o->next) 


if (o != d) 1 
printk(KERN ERR ^init module: found dependency that is 
"(no longer?) a module. W^); 
goto err3; 


Ld 


/* Update module references.  */ 
for (i = 0, dep - mod->deps: i < mod->ndeps; ++i, ++dep) { 
struct module *d = dep-?dep; 


dep->ref = mod; 

dep->next_ref = d—refs; 

d->refs = dep; 

/* Being referenced by a dependent module counts as a 
use as far as kmod is concerned. */ 

d->flags |= MOD USED ONCE; 


/* Free our temporary memory.  */ 
put mod name(n name); 
put mod name (name); 


由 于 module 结构 本 身 已 经 复制 过 来 ， 现 在 只 此 复制 除 此 以 外 的 那 一 部 分 就 够 了 。 对 于 1386 处 理 


A, module arch init 是 空 操 作 ， 总 是 返 岂 0， 所 以 没有 作用 。 对 有 些 处 理 器 ， 复 制 过 来 的 内 容 有 一 部 
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分 可 能 还 在 高 速 缓存 中 而 没有 真 止 气 入 旬 内 存 中 ， 所 以 更 通过 flush_icache_range( ) 将 这 些 内 容 “ 冲 刷 ” 
到 内 存 中 去 ， 但 是 对 i1386 处 理 器 而 言 ， 这 并 不 是 个 问题 ， 所 以 这 个 函数 也 是 空 操作 。 

前 面 讲 过 ， 模 块 之 间 可 能 有 依赖 关系 ， 止 在 安装 中 的 模块 可 能 要 引用 其 他 模块 中 的 符号 。 虽 然 在 
用 户 空 间 已 经 完成 了 对 这 些 符 号 的 连接 ， 但 现在 必须 验证 这 些 模块 还 在 内 核 中 未 被 拆除 。 所 以 ， 这 于 
通过 一 个 for 循环 检验 模块 的 deps 数组 ( 见 504 行 )。 对 于 数组 中 的 每 一 个 元 素 ， 即 module_ref At, = 
方面 是 检查 其 dep 指针 【〈 这 些 指针 是 在 用 户 空 间 的 连接 阶段 设置 好 了 的 ) 并 不 是 指向 日 标 模 块 日 喘 ; 
另 一 方面 是 扫描 module list, W% dep 指针 所 指 的 module 结构 已 经 不 在 module, list 中 ( 见 515 行 的 for 
循环 )， 那 么 这 次 系统 调用 就 失败 了 ， 对 目标 模块 的 安装 也 就 失败 了 。 在 这 种 情况 下， 应 用 程序 如 
insmod) 有 责任 通过 系统 调用 delete_module( ) 将 已 经 创建 的 module 结构 从 module, list "FIBER. 

通过 了 第 一 趟 扫描 以 后 ， 还 要 再 来 … 次 扫描 ( 见 526 行 )， 这 一 次 要 将 每 个 module_ref 结构 链 入 到 
所 依赖 模块 《指针 a 指向 这 个 模块 的 module 结构 》 的 refs 队列 中 ， 并 将 结构 中 的 ref 指针 指向 正在 安 
装 中 的 module 结构 。 IEE, 每 个 module ref 结构 既 存 在 于 其 所 属 模块 ( 即 正在 安装 中 的 模块 ) 的 deps[ ] 
数组 中 ， 叉 出现 于 该 模块 所 依赖 的 某 个 模块 的 refs 队列 中 ， 成 为 连接 两 个 模块 的 纽带 。 从 一 个 模块 的 
deps[ ] 数 组 可 以 找到 这 个 模块 所 依赖 的 所 有 模块 ， 而 沿 着 它 的 refs 链 则 可 以 找到 所 有 依赖 本 它 的 模块 ， 
从 而 形成 了 模块 在 内 核 中 的 “关系 网 ”。 

至 此 ， 模 块 的 安装 已 基本 完成 ， 为 模块 安装 而 分 配 的 临时 缓冲 区 n_name 和 name 都 可 以 释放 了 。 
剩 下 的 大 事情 还 有 一 件 ， 那 就 是 启动 执行 模块 的 init module( ) 函 数 。 





[sys init module( )] 


541 /* Initialize the module.  */ 

542 mod-^flags |= MOD INTTTALIZING; 

543 atomic set (&mod->uc. usecount, 1) ; 

544 if (mod init && (error = mod-^init( )) != 0) | 
545 atomic set (&mod-^uc. usecount, 0) ; 

546 mod->flags &- "MOD INITTALTZING; 

547 if (error > 0) /* Buggy module */ 

548 error - -EBUSY; 

540 goto errO; 

550 } 

551 atomic dec(&mod->uc. usecount) ; 

552 

553 /* And set it running. */ 

554 mod->flags = (mod->flags | MOD RUNNING) & “MOD INITIALIZING; 
555 error = 0; 

556 goto errO; 

557 

558 errs: 

559 put mod name (n name); 

560 err2: 

561 *mod - mod tmp; 

562 strcpy((char *)mod->name, name tmp);/* We know there is room for this*/ 
563 errl: 

564 put mod name (name) ; 
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565 err0: 

566 unlock kernel( ); 
567 kfree (name. tmp): 
568 return error; 

569 } 


不 提供 init_module( ) 函 数 ， 也 就 是 让 module 结构 中 的 函数 指针 init 为 NULL 也 是 允许 的 , 但 是 那 
样 就 使 模块 的 存在 失去 了 意义 ( 除 占 据 了 ~… 些 内 核 空间 外 )， 因 为 到 这 里 为 止 内 核 还 没有 任何 途径 访问 
模块 中 的 变量 或 调用 模块 中 的 任何 函数 。 所 以 ， 在 正常 情况 下 都 会 提供 模块 的 init_module( ) 函 数 。 如 
宁 这 个 函数 正常 完成 了 它 的 操作 就 应 该 返回 0， 否则 模块 的 安装 就 失败 了 。 

读者 在 后 面 将 会 看 到 一 个 典型 init. module( ) 函 数 的 代码 。 


最 后 一 个 系统 调用 是 delete module( )， 用 来 拆 印 已 安装 的 模块 ， 其 内 核 中 的 实现 为 
Sys_delete_module( )。 我 们 仍旧 分 段 来 读 (kemel/module.c): 


586 asmlinkage long 
587 sys_delete_module (const char *name user) 


588 { 

589 struct module *mod, *next; 
590 char *name; 

591 long error; 

592 int something changed; 

593 

594 if (!capable(CAP SYS MODULE)) 
595 return -EPERM; 

596 

597 lock kernel( ); 

598 if (name user) { 

599 if ((error = get mod name(name user, &name)) < 0) 
600 goto out; 

601 if (error == 0) { 

602 error = -EINVAL; 

603 put mod name (name); 
604 goto out; 

605 } 

606 error = -ENOENT; 

607 if ((mod = find module (name)) == NULL) | 
608 put mod name (name); 
609 goto out; 

610 } 

611 put mod name (name); 

612 error = -EBUSY; 

613 if (mod->refs != NULL) 
614 goto out; 

615 

616 spin lock(&unload lock); 
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617 if (! MOD IN USE(mod)) { 

618 mod->flags |= MOD DELETED; 

619 spin unlock(&unload lock); 

620 free module(mod, 0); 

621 error = 0; 

622 } else { 

623 spin unlock(&unload lock); 

624 } 

625 goto out; 

626 } 

627 

628 /* Do automatic reaping */ 

629 restart: 

630 something changed = 0; 

631 for (mod = module_list; mod != &kernel_module; mod = next) { 
632 next = mod->next; 

633 spin lock(&unload lock); 

634 if (mod->refs == NULL 

635 && (mod->flags & MOD AUTOCLEAN) 
636 && (mod->flags & MOD RUNNING) 
637 && !(mod-^flags & MOD DELETED) 
638 && (mod-^flags & MOD USED ONCE) 
639 && ! | MOD IN USE(mod)) { 

640 if ((mod->flags & MOD VISITED) 
641 && '(mod-^»flags & MOD JUST FREED)) { 
642 spin unlock (&unload lock); 
643 mod->flags &- "MOD VISITED; 
644 } else { 

645 mod->flags |= MOD DELETED; 
646 spin unlock(&unload lock); 
647 free module(mod, 1); 

648 something changed = 1; 

649 } 

650 } else { 

651 spin_unlock (&unload_lock) ; 

652 } 

653 j 

654 if (something changed) 

655 goto restart; 

656 for (mod = module list; mod !- &kernel module; mod = mod->next) 
657 mod->flags &- "MOD JUST FREED; 

658 error = Q; 

659 out: 

660 unlock kernel ( ); 

661 return error; 

662  ] 


与 前 几 个 系统 调用 一 样 ， RAPT POVERI ER. PRA A: 参数 name, user 
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为 非 0， 表 示 拆 除 一 个 特定 的 模块 ， 为 0 则 表示 “清理 仓库 ” 即 拆除 所 有 可 以 拆除 的 模块 。 我 们 先 看 
有 具体 目标 的 拆除 。 从 用 户 空间 复制 模块 名 之 后 ， 就 道 过 find module( ) 从 module. list 中 找到 日 标 模块 
的 module 结构 。 模 块 的 拆卸 也 是 有 条 件 的 ， 如 果 内 核 中 还 有 其 他 模块 依赖 于 目标 模块 ， 即 引用 日 标 模 
块 中 的 符号 ， 那 就 不 能 把 月 标 模块 拆除 。 怎 么 知道 是 千 有 模块 依赖 十 日 标 模块 呢 ? 看 目标 模块 的 refs 
nett AE 0 就 可 以 了 。 即 使 已 经 没有 模块 依 种 于 目标 模块 ， 也 还 不 能 够 说 明 就 可 以 立即 拆除 这 个 
模块 ， 这 里 还 有 一 个 条 件 ， 即 _MOD _IN_USE(med) 的 值 为 0， 也 就 是 说 目标 模块 不 在 使 用 中 。 宏 操作 
__MOD_IN_USE( yE X F include/linux/module.h: 


147 #define __MOD_IN_USE (mod) \ 
148 (mod member present((mod), can unload) && (mod)->can unload V 
149 ? (mod)-^can unload( ) : atomic read(&(mod)-»uc. usecount) ) 


A EPA OAT LE HI, 如 果 module 结构 中 包括 了 函数 指针 can_unioad， 并 且 这 个 函数 指针 非 0， 
了 吏 调 用 这 个 函数 ， 并 根据 其 返回 值 来 决定 契 否 可 以 拆除 ; 何 则 就 看 module 结构 中 的 使 用 计数 
uc.usecount. {AI sys_init_module( ) 的 代 但 中 , 我 们 看 到 计数 器 uc.usecount 在 调用 init module( ) 之 前 
设置 成 1， 而 企 调 用 之 后 ， 则 将 其 递 降 成 0〈 见 543 行 和 551 行 )。 这 个 计数 器 为 非 0 表示 正在 对 模块 
进行 某 种 操作 ， 所 以 此 时 若 此 求 拆 伸 便 失败 而 返回 出 错 代码 EBUSY。 反 之 ， 如 果 一 切 顺 利 ， 就 调用 
module.c 中 的 函数 free_module( ) 实 施 拆除 : 


[sys_delete_module( ) > free module( )] 


1012 /* 

1013 * l'ree the given module. 

1014 */ 

1015 

1016 void 

1017 free module(struct module *mod, int tag freed) 

1018 { 

1019 struct, module ref *dep; 

1020 unsigned i; 

1021 

1022 /* Let the module clean up. */ 

1023 

1024 if (mod-»flags & MOD RUNNING) 

1025 { 

1026 if (mod—>cleanup) 

1027 mod-^cleanup( ): 

1028 mod-^flags &- ^ MOD RUNNING; 

1029 } 

1030 

1031 /* Remove the module (rom the dependency lists. */ 
1032 

1033 for (i = 0, dep = mod deps; i < mod->ndeps: ++i, ++dep) { 
1034 struct module ref **pp: 

1035 for (pp = &depC dep refs; *pp !- dep; pp = &(*pp) next ref) 
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1036 continue; 

1037 *pp = dep—>next_ref; 

1038 if (tag freed && dep->dep—>refs == NULL) 
1039 dep->dep->flags |= MOD JUST FREED; 
1040 } 

1041 

1042 /* And from the main module list. */ 

1043 

1044 if (mod == module list) | 

1045 module list = mod->next; 

1046 } else 1 

1047 struct module *p; 

1048 for (p = module list; p->next != mod; p = p->next) 
1049 continue; 

1050 p-»next = mod-?next; 

1051 } 

1052 

1053 /* And free the memory. */ 

1054 

1055 module unmap (mod); 

1058 } 


与 安装 模块 时 调用 init. module( ) 相 对 应 ， 拆 除 模 块 时 首先 要 调用 目标 模块 的 cleanup module( )&# 
数 (1027 行 )。 通 常 ， 在 这 个 函数 中 要 将 模块 在 系统 中 的 “登记 ”撤销 ， 使 系统 不 能 再 看 到 这 个 模块 的 
存在 。 读者 以 后 会 看 到 典型 的 cleanup_module( ) 函 数 代 伺 。 调 用 了 这 个 图 数 以 后 ， 就 失去 了 进入 这 个 模 
块 的 途径 ， 从 而 在 概念 上 这 个 模块 已 经 不 在 运行 中 了 ， 上 所 以 把 模块 的 MOD_RUNNING fusis 0。 

拆除 .一 个 模块 以 后 ， 它 所 依赖 的 所 有 其 他 模块 就 都 少 了 一 个 “用 户 ”。 dmn. Be T BENT 
个 refs 队列 ， 它 的 所 有 “用 户 ” 模 块 部 通过 一 个 module_ref 数据 绪 构 链 入 到 这 个 队列 中 。 所 以 ， 坝 在 
要 把 目标 模块 从 它 所 依赖 的 所 有 模块 的 refs 队列 中 脱 链 。 这 里 的 for 循 坏 〈1033 行 )， 是 惟 查 日 标 模块 
的 deps 数组 ， 依 次 处 理 数组 中 的 每 个 module ref 结构 ， 结 构 中 的 指针 dep 指 问 所 依赖 的 模块 〔 华 的 
module 结构 )。 所 以 ，dep->dep 指向 其 中 某 个 模块 的 module 4544, rfj dep->dep->refs 进而 指 癌 其 refs 
队列 。 第 二 层 for 循 坏 “1035 47) MIS BA SER BNF I] ER module ref 结构 的 指针 ， 使 pp 指 丫 这 个 

Hit. HH module, ref 结构 中 的 指针 next ref 指 加 该 队列 中 的 下 一 个 module ref 结构 ，1037 行 就 使 属 

于 目标 模块 的 module ref 结构 从 队列 中 脱 链 。 这 里 之 所 以 需要 第 个 for 循环 是 因为 refs 队列 是 单 链 队 
列 ， 只 有 顺 着 这 个 队 记 才能 找到 需要 脱 链 的 数据 结构 。 从 队列 中 航 链 的 module ref 结构 并 不 因由 (也 个 
应 该 } 单 独 释放 ， 因 为 整个 deps 数组 部 是 随 模 块 的 module 结构 (以 太 模 块 映 象 的 定 间 〉 一 起 作为 一 个 
BASHA. ATU, RUKH AKER module 结构 也 从 module list BÀ Fi '[' RHEL, Rw 
module_unmap( ) 将 模块 所 占用 的 所 有 内 存 资源 作为 一 个 整体 释放 《1055 íT). 

… 个 模块 的 拆除 有 可 能 使 它 所 依赖 的 其 他 模块 得 介 “ 自 由 ” 如 果 将 一 个 module_ref 结构 从 一 个 模 
块 的 refs 队列 脱 链 以 后 使 这 个 队列 变 成 了 空 队 列 ， 那 么 这 个 模块 就 再 没有 其 他 模块 依赖 丁 纪 了 。 华 这 
种 情况 下 ， 如 果 参 数 tag freed 为 非 0， 距 要 设置 这 个 模块 的 MOD_JUST_FREED 标志 位 ， 表 示 这 个 模 
块 刚刚 得 到 自由 。 不 过 ， 在 sys delete module( ) 中 有 日 标 地 拆除 个 别 模 块 而 调 川 free_module( ) 时 这 个 
参数 为 0( 见 620 行 )。 
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回 到 sys delete module( ) 的 代码 中 ， 如 果 调 用 时 的 参数 name. user 为 NULL, 就 表示 要 拆除 内 核 中 
所 有 可 以 拆除 的 模块 。 另 一 方面 ， 在 有 目标 地 拆除 了 一 个 模块 之 后 ， 由 于 可 能 有 模块 得 到 了 自由 ， 世 
要 进一步 拆除 所 有 可 以 拆除 的 模块 。 所 谓 “ 可 以 拆除 ”， 是 指 同 时 满足 以 下 条 件 : 
(1) 不 再 有 任何 模块 依赖 于 它 (634 11). 
(2) 安装 时 带 有 MOD_AUTOCLEAN 标志 位 ， 人 允许 自动 拆除 (635 行 )。 
(3) ”处 于 运行 状态 ， 即 已 经 安装 完毕 但 尚未 拆除 《636 行 )。 
(4) ”尚未 开始 拆除 (637 行 )， 注 意 在 上 面 的 618 行 已 经 设置 了 模块 的 MOD_DELETED 标志 ， 然 
后 在 解 了 锁 以 后 才 调 用 free module( ), 而 MOD. RUNNING 标志 位 则 是 在 free_module( ) 里 面 
在 调用 了 模块 的 cleanup_module( ) 函 数 以 后 才 清 0 的。 所 以 MOD. DELETED 标志 表示 拆除 
的 过 程 已 经 启动 。 
(5) 模块 安装 以 后 已 经 受到 过 引用 (638 行 )。 这 种 引用 既 可 能 来 白 其 他 模块 ， 也 可 能 来 自 内 核 。 
例如 ， 在 安装 一 个 文件 系统 〈 指 设备 ) 时 ， 如 果 所 涉及 的 文件 系统 〈 指 格式 ) 是 以 模块 方式 
实现 的 ， 则 就 要 对 此 模块 的 module 4443 Va FH — eh AX try_inc_mod_count( )， 递 增 其 使 用 计 
数 并 设置 其 MOD_USED_ONCE 标志 位 。 
(6) 模块 已 不 在 使 用 中 (639 行 )。 
代码 中 通过 一 个 for 循环 扫描 module list 队列 ， 寻 找 同时 符合 所 有 这 些 条 件 的 模块 。 这 样 的 扫描 
可 能 要 反复 多 次 ， 因 为 每 拆除 一 个 模块 就 有 可 能 解放 出 其 他 一 些 模块 ， 而 使 其 中 的 某 些 模块 也 满足 了 
自动 拆除 的 条 件 。 所 以 ， 每 拆除 一 个 模块 以 后 就 把 something changed 置 成 1， 使 得 在 for 循环 结束 以 
后 再 转 回 restart 标号 处 《629 1T). 开始 对 module, list 新 一 轮 的 扫描 。 


特权 用 户 可 以 执行 实用 程序 /sbin/insmod 和 /sbin/rmmod, 通过 内 核 提 供 的 上 述 4 个 系统 调用 完成 具 
体 模块 的 安装 和 拆卸 。 由 于 /sbiminsmod 实际 上 还 是 个 相当 复杂 的 月 标 代码 连接 过 程 ， 用 户 开 发 的 程序 
中 一 般 不 应 该 、 也 不 必要 自行 直接 调用 create_module( ). init module( ) 等 系统 调用 。 

在 由 用 户 通 过 /sbin/insmod 安装 模块 的 过 程 中 ， 内 核 处 于 一 种 被 动 的 地 位 。 但 是 ， 在 很 多 情况 下 内 
核 需 要 主动 地 启动 某 个 模块 的 安装 , 而 不 能 只 是 消极 地 等 待 。 例如 , 读者 在 第 4 章 关 于 系统 调用 exec( ) 
的 代码 中 曾经 看 到 ， 当 内 核 打 开 一 个 特殊 格式 的 二 进 制 可 执行 程序 ， 却 发 现 内 核 中 并 没有 支持 这 种 格 
式 的 目标 代码 装 入 程序 时 ， 识 会 试图 先 装 入 文 持 这 种 格式 的 可 安装 模块 。 上 基体 的 代码 在 exec.c 中 的 
search_binary_handler( ) 中 ， 读 者 不 妨 回 过 去 看 一 下 。 类 似 的 情况 还 有 很 多 ， 例 如 当 内 核 从 网 络 中 接收 
到 一 个 特殊 的 packet 或 报 文 ， 而 文 持 相 应 规程 的 模块 尚未 安装 。 又 如 当 内 核 检 测 到 茶 种 硬件 ， 而 支持 
这 种 硬件 的 模块 尚未 安装 ， 等 等 。 

在 这 样 的 情况 下 ， 内 核 都 通过 … 个 函数 reguest_module( ) 主 动 地 启动 模块 的 安装 。 所 以 ， 许 多 模块 
的 安装 实际 上 都 是 在 用 户 不 知 不 觉 中 由 内 核 自 行 启动 /sbim/insmod 安装 的 。 让 我 们 来 看 看 这 个 自动 安装 
K. A% reguest_module( ) 的 代码 在 kernel/kmod.c 中 : 


159 /六 六 

160 * request module - try to load a kernel module 

161 * @module name: Name of module 

162 * 

163 * Load a module using the user mode module loader. The function returns 
164 * zero on success or a negative errno code on failure. Note that a 
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165 


successful module load does not mean the module did not then unload 
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* 

* and exit on an error of its own. Callers must check that the service 
* they requested is now available not blindly invoke it. 

* 

* If module auto-loading support is disabled then this function 

* becomes a no-operation. 

*/ 


int request module (const char * module name) 
{ 
pid_t pid; 
int waitpid result; 
sigset t tmpsig; 
int i; 
static atomic_t kmod concurrent = ATOMIC_INIT (0) ; 
#define MAX KMOD CONCURRENT 50 /* Completely arbitrary value - KAO */ 
static int kmod loop msg; 


/* Don’ t allow request module( ) before the root fs is mounted! */ 
if ( ! eurrent- fs root ) { 
printk(KERN ERR "request module[5*s]: Root fs not mounted\n”, 
module name); 
return -EPERM; 
} 


/* If modprobe needs a service that is in a module, we get a recursive 
* loop. Limit the number of running kmod threads to max_threads/2 or 
* MAX KMOD CONCURRENT, whichever is the smaller. A cleaner method 
* would be to run the parents of this process, counting how many times 
* kmod was invoked. That would mean accessing the internals of the 
* process tables to get the command line, proc_pid_cmdline is static 
* and it is not worth changing the proc code just to handle this case. 
* KAO. 

*/ 
i = max threads/2; 
if (i > MAX KMOD CONCURRENT) 
i = MAX KMOD CONCURRENT ; 
atomic inc(&kmod concurrent); 
if (atomic read(&kmod concurrent) > i) { 
if (kmod loop msg++ < 5) 
printk (KERN ERR 
^kmod: runaway modprobe loop assumed and stopped Wn'); 
atomic dec (&kmod concurrent); 
return -ENOMEM; 
} 


pid = kernel thread(exec modprobe, (void*) module name, 0); 
if (pid < 0) { 
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213 printk(KERN ERR “request _module[%s]: fork failed, errno %d\n”, 
module name, -pid); 


214 atomic dec (&kmod concurrent): 
215 return pid; 
216 } 
217 
218 /* Block everything but SIGKILL/SIGSTOP */ 
219 spin lock irq(&current-^sigmask lock); 
220 tmpsig = current-?blocked; 
221 siginitsetinv (&current—>blocked, si gmask (SIGKILL) | sigmask (SIGSTOP) ) - 
222 recalc_sigpending (current) ; 
223 spin unlock_irg(&current~>sigmask_ lock); 
224 
225 waitpid result = waitpid(pid, NULL, __ WCLONE); 
226 atomic dec(&kmod concurrent); 
221 
228 /* Allow signals again.. */ 
229 spin lock irq(&current-^sigmask lock); 
230 current—>blocked = tmpsig; 
231 recale sigpending(current); 
232 spin unlock irq(&current-^sigmask lock); 
233 
234 if (waitpid result != pid) { 
235 printk (KERN ERR 
"request module[9s]: waitpid(%d,...) failed, errno %d\n”, 
236 module name, pid, -waitpid result); 
237 } 
238 return Q; 
239 } 


首先 检 会 文件 系统 的 恨 设 备 是 否 已 经 安装 。 山 内 核 启动 的 模块 安装 也 此 靠 /sbim/insmod 米 完成 ， 因 
此 它 在 根 设备 尚 霖 安装 前 显然 是 无 法 进行 的 。 注 意 ，reguest_module( ) 是 在 当前 进程 的 上 下 文中 ( 仙 不 
EEA PERFETTO 执行 的 ， 这 样 才能 使 当前 进程 进入 胜 眠 向 等 待 模块 安装 的 完成 。 对 
reguest_module( WAHA TESKE, 因为 在 安装 的 过 程 中 可 能 会 发 现 必须 先 安装 另 一 个 模块 。 因此 ， 
就 要 对 赂 套 深 度 加 以 限制 ， 程 序 中 设置 了 个 静态 变量 kmod_concurrent， 作 为 艇 套 深 度 的 计数 器 ， 并 
且 还 规定 了 髓 套 深 度 的 上 限 MAX_KMOD_CONCURRENT。 个 过 ， 对 腾 套 深度 的 控制 还 紫 考 虑 到 系统 
中 对 进程 数量 的 限制 ， 即 max_threads， 因 为 在 安装 的 过 程 中 要 创建 临时 的 进程 。 

通过 了 这 些 检查 以 后 ， 就 调用 kernel_thread( ) 创 建 个 内 核 线 各 exec_modprobe( )。 对 于 
kernel thread( ) 本 里， 读者 已 经 全 第 4 前 中 看 到 过 了 ， 所 以 我 们 继续 往 下 先 把 reguest_module( ) 代 码 的 
剩余 部 分 读 完 ， 然 后 自 回 过 来 看 exec modprobe( )M AG. 

创建 内 核 线程 成 功 以 后 ， 先 把 当前 进程 的 信号 机 制 中 除 SIGKILL 和 SIGSTOP 以 外 所 有 的 信号 都 
屏蔽 挤 ， 倪 得 在 等 待 模块 安装 的 过 程 中 受到 十 扰 ， 然 后 就 通过 waitpid( ) 使 当前 进程 进入 睡眠 ， 静 候 佳 
首 ， 等 竺 创建 出 来 的 内 核 线程 在 完成 模块 安装 以 后 退出 舞台 。 当 前 进程 被 唤醒 而 从 waitpid( ) 返 回 时 ， 
内 核 线程 exec_modprobe( ) 的 运行 已 经 结束 ,恢复 了 当前 进程 原 有 的 信 伟 设置 以 后 ,根据 返回 值 可 以 判 
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断 exec, modprobe( ) 的 操作 是 否 成 功 。 如果 失败 ， 就 通过 printk( ) 在 系统 的 “运行 日 志 ”/var/log/messages 
中 登录 一 条 出 错 信息 。 
好 ， 现 在 我 们 来 看 exec_modprobe( ) 的 代码 。 它 还 是 在 kernel/kmod.c F: 


139 /* 

140 modprobe path is set via /proc/sys. 

141 */ 

142 char modprobe path[256] = ”/sbin/modprobe’ ; 

143 

144 static int exec modprobe (void * module name) 

145 { 

146 static char * envp[ ] = { "HOME-/^, 'TERM-linux', 
"PATH-/sbin:/usr/sbin:/bin:/usr/bin", NULL ); 

147 - char *argv[ ] = { modprobe path, "-s^, "-k^, ^--^, (charx*)module name, NULL |; 

148 int ret; 

149 

150 ret = exec usermodehelper(modprobe path, argv, envp); 

151 if (ret) { 

152 printk(KERN ERR 

153 "kmod: failed to exec %s -s -k %s, errno = *dWn', 

154 modprobe path, (char*) module name, errno); 

155 j 

156 return ret; 

157 } 


这 里 的 modprobe path 就 是 路 径 名 /sbin/modprobe， 所 以 ， 如 果 module name 为 mymodule 的 话 ， 
这 里 的 argv[ ] 就 相应 于 命令 : 


/sbin/modprobe -s -k mymodule 


选择 项 -s 表示 在 安装 过 程 中 产生 的 信息 应 写 入 系统 的 运行 日 志 ， 而 不 要 在 控制 终端 上 显示 ; -k 表 
示 安 装 时 将 模块 的 MOD_AUTOCLEAN 标志 位 设 成 1。 
函数 exec_usermodehelper( ) 的 代 砂 也 在 同一 文件 (kmod.c) 中 : 


[exec modprobe( ) > exec. usermodehelpe:r( )] 


86 int exec usermodehelper (char *program path, char *argv[ ], char *envp[ ]) 
87 { 

88 int i; 

89 struct task struct *curtask = current; 

90 

9] curtask->session = 1; 

92 curtask >pgrp = 1; 

93 

94 use init fs context( ); 

95 

96 /* Prevent parent user process from sending signals to child. 
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97 Otherwise, if the modprobe program does not exist, it might 
98 be possible to get a user defined signal handler to execute 
99 as the super user right after the execve fails if you time 
100 the signal just right. 

101 */ 

102 spin lock irq(&curtask-^sigmask lock); 

103 sigemptyset (&curtask->blocked) : 

104 flush_signals(curtask) ， 

105 flush signal handlers (curtask) ， 

106 recale sigpending(curtask); 

107 spin unlock irq(&curtask-^sigmask lock); 

108 

109 for (i = 0; i < curtask—->files—>max_fds; i++ ) { 
110 if (curtask->files->fdli]l) close(i); 

111 } 

112 

113 /* Drop the “current user” thing */ 

114 { 

115 struct user struct *user = curtask->user; 
116 curtask-^user = INIT USER; 

HT atomic inc(&INIT USER-> count); 

118 atomic inc(&INIT USER->processes) ; 

119 atomic dec(&user-^processes); 

120 free uid(user); 

121 } 

122 

123 /* Give kmod all effective privileges.. */ 

124 curtask-»euid = curtask->fsuid = 0; 

125 curtask->egid = curtask->fsgid = 0; 

126 cap set full (curtask->cap effective); 

127 

128 /* Allow execve args to be in kernel space. */ 
129 set fs(KERNEL DS); 

130 

131 /* Go, go, go... */ 

132 if (execve(program path, argv, envp) < 0) 

133 return -errno; 

134 return Q; 

135 } 


这 个 函数 是 在 内 核 线程 exec_modprobe( ) 的 上 下 文中 运行 的 ， 所 以 这 里 的 current 指向 这 个 内 核 线 
程 的 task struct 结构 ， 而 与 创建 这 个 线程 时 的 current 不 同 ， 那 时 候 的 current 指向 当时 的 当前 进程 ， 即 
exec_modprobe( ) 的 父 进程 。 内 核 线程 exec_modprobe( ) 从 其 父 进程 那里 继承 了 绝 大 部 分 资源 和 特性 ， 
包括 它 的 fs struct 的 内 容 和 所 有 的 已 打开 文件 ， 以 及 它 的 进程 号 、 组 号 ， 还 有 所 有 的 特权 。 但 是 ， 这 
上 旦 从 父 进程 继承 下 来 的 资源 和 特性 未 必 满 足 模块 安装 的 要 求 。 首 先是 父 进程 的 根 目录 ， 在 “文件 系统 ” 
一 凋 中 讲 过 ， 一 个 进程 可 以 设置 自身 的 根 日 录 ， 所 以 父 进程 的 根 目录 有 可 能 并 不 是 真正 的 整个 文件 系 
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统 的 根 目 录 。 如 果 那 样 的 证 ， 在 父 进程 的 根 目 录 中 也 许 根本 就 没有 sbin KAP TAR, BAB 
modprobe 了 。 所 以 ， 首 先 得 要 确保 这 个 内 核 线程 的 fs_srtuct 中 的 指针 root 确实 指 向 文件 系统 的 总 根 ， 
结构 中 的 其 他 一 些 内 容 也 要 与 其 相 一致 。 怎 么 来 保证 这 一 点 呢 ? 系统 中 只 有 一 个 进程 ， 即 init_task 的 
根 目录 是 肯定 不 会 改变 的 ， 所 以 这 里 通过 kmod.c 中 的 一 个 函数 use_init_fs_context( ) 从 init_task 结构 中 
直接 继承 其 根 日 录 竺 资源 。 


[exec modprobe( ) > exec. usermodehelper( ) > use_init_fs_context( )] 


32 static inline void 

33 use init fs context (void) 

34 f 

35 struct fs struct *our fs, *inlt fs; 

36 struct dentry *root, *pwd; 

3T struct vfsmount *rootmnt, *pwdmnt; 

38 

39 /* 

40 * Make modprobe's fs context be a copy of init’s. 

41 * ; 

42 * We cannot use the user's fs context, because it 
43 * may have a different root than init. 

44 * Since init was created with CLONE FS, we can grab 
45 * its fs context from "init task. 

46 * 

AT * The fs context has to be a copy. If it is shared 
48 * with init, then any chdir( ) call in modprobe will 
49 * also affect init and the other threads sharing 

50 * init task s fs context. 

51 * 

52 * We created the exec modprobe thread without CLONE FS, 
53 * so we can update the fields in our fs context freely. 
54 */ 

55 

56 init fs = init task. fs; 

51 read lock(&init fs-»lock); 

58 rootmnt = mntget(init fs-^rootmnt); 

59 root = dget (init fs->root) ; 

60 pwdmnt = mntget (init_fs—>pwdmnt) ; 

61 pwd = dget (init_fs—>pwd) ; 

62 read unlock (&init fs-»lock); 

63 

64 /* FIXME ~ unsafe — fs access */ 

65 our fs = current-?fs; 

66 our fs-»umask = init fs->umask; 

67 set fs root(our fs, rootmnt, rool); 

68 set fs pwd(our fs, pwdmnt, pwd); 

69 write lock(&our fs-^lock); 

10 if (our fs-^»altrooi) { 
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71 struct vfsmount *mnt = our fs-^altrootmnt: 
12 struct dentry *dentry = our fs-»altroot; 
73 our fs~>altrootmnt = NULL; 

74 our fs »altroot = NULL; 

75 write unlock(&our fs—>lock) : 

76 dput (dentry) ; 

77 mntput (mnt) ; 

78 | else 

79 write unlock(&our fs-»lock); 

80 dput (root) ; 

81 mntput (rootmnt); 

82 dput (pwd) ; 

83 mntput (pwdmnt) ; 

84 | 


对 这 一 段 代码 就 个 需要 多 说 了 (读者 若 感 到 困难 就 应 该 复习 :下 第 5 章 路 的 有 关内 容 )。 解决 了 根 
和 目 孙 的 问题 以 后 ， 还 归 把 从 父 进程 继承 的 待 处 理 信 号 全 者 “冲刷 ” 掉 ， 即 全 部 丢 痉 ， 并 且 把 父 进 程 所 
设 症 的 信 与 处 理 也 全 部 恢复 成 由 系统 默认 的 处 理 方式 。 然 后， 继承 下 来 的 全 部 已 打开 文件 也 要 关闭 ， 
连 打开 文件 号 0、1、2 所 代表 的 三 个 标准 输入 /输出 和 出 错 输 出 文件 也 都 关闭 ， 这 样 就 与 父 进 程 的 控制 
终端 脱离 了 关系 。 不 但 如 此 ， 连 线程 的 uid、euid、fsuid 也 要 全 部 换 成 0O， 使 其 变 成 特权 (超级) 用户 
进程 ， 还 紫 通 过 cap_set_full( ) 赋 予 其 全 部 特权 (第 126 行 )。 读 者 也 许 感到 迷惑 ， 怎 么 这 个 进程 有 这 么 
大 的 能 峙 ， 竟 然 可 以 为 所 欲 为 ， 不 受 限 制 ?原因 就 亦 于 这 是 个 内 核 线程 ， 而 不 是 进程 。 

第 129 行 的 set fs( ) 是 个 宏 操 作 ， 定 义 于 include/asm_i386/uaccess.h: 


30 Hdefine set fs(x) (current-~>addr limit = (x)) 


也 就 是 说 ， 把 从 父 进 程 继 承 的 地 址 上 上限 也 换 成 KERNEL DS. Bil 0xffffffff(4GB)， 因 为 父 进 程 的 地 
址 上 限 很 可 能 是 USER. DS, Hl Oxbfffffff(3GB). 

经 过 这 么 一 番 脱 胎 换 骨 的 改造 ， 内 核 线程 exec_modprobe( ) 就 成 了 一 个 彻底 的 特权 用 户 进 程 ( 线 
Fe), MSRM RRR SARK. BAM AI PIKE, xxn "(ux bm". (Ad, PS 
程 (线程 ) 问 的 父子 关系 还 在 ， 当 exec modproc() 死 广 退出 运行 时 还 十 会 唤醒 其 父 进 程 。 

最 后 ， 就 是 通 过 execve( ) 执 行 /sbin/modprobe 了 ， 有 关 ececve( ) 的 详情 ， 包 括 运行 结束 时 的 处 理 ， 


可 参阅 第 4 章 。 


在 陪读 模块 的 iniLmodule() 和 cleanup_module( ) 册 个 表 数 之 和 前， 还 要 讲 -- 下 内 核 中 符号 的 “移出 ?” 

加 题 ， 也 就 是 内 核 中 的 哪 一 些 符 号 中 以 被 可 安装 模块 引用 。 内 核 中 的 每 

个 符号 都 必须 通过 宏 定义 EXPORT SYMBOL 明确 规定 准予 移出 ， 才 能 由 /sbin/insmod 通过 

query_module( ) 系 统 调用 获得 这 些 符 号 的 地 址 ， 人 否则 就 都 是 不 准 移出 的 。 下 面 是 取 白 kernel/ksyms.c 中 
ILAH S: 


142 EXPORT SYMBOL (path_init) ; 
143 EXPORT SYMBOL (path walk); 
144 EXPORT SYMBOL (path release); 
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145 . EXPORT SYMBOL( user walk); 
146 EXPORT. SYMBOL (lookup one); 
147 EXPORT SYMBOL (lookup hash) ; 
148 EXPORT SYMBOL (sys. close); 


FEN EXPORT. SYMBOL 将 给 定 符号 的 符号 名 和 它 的 值 ， 即 该 符号 在 连接 后 的 内 核 映 象 中 的 地 
HE, 组装 在 一 个 module symbol 数据 结构 中 ， 并 指示 连接 程序 (1d) 在 连接 内 核 映 象 时 将 这 个 结构 放 在 
一 个 称 为 “__ksymtab” 的 区 段 中 。 这 样 ， 连 接 以 后 所 有 这 样 的 数据 结构 就 都 在 __ksymtab 区 段 中 ， 而 
这 个 区 段 就 成 了 内 核对 外 公开 的 符号 表 。 而 “对 内 ”的 符号 表 则 由 连接 程序 入 行 生 成 ， 并 仅 供 连接 程 
Feld 自己 使 用 。 数 据 结构 类 型 module symbol 是 在 include/linux/module.h 中 定义 的 : 


37 struct module symbol 


38 | 

39 unsigned long value; 
40 const char *name; 

41 or 


这 里 的 name 只 是 一 个 字符 指针 ， 真 止 的 字符 则 存放 在 另 一 个 区 段 “.kstrtab” 中 。 这 样 做 的 好 处 在 
于 使 符号 表 的 结构 变 得 规则 ， 因 为 不 管 符号 名 字符 串 有 多 长 ， 指 针 的 大 小 总 是 固定 的 。 

这 里 还 要 指出 , 内 核对 可 安装 模块 的 支持 是 可 选 的 。 如 昌 在 编译 内 核 代 码 之 前 的 系统 配置 (config) 
阶段 选择 了 支持 可 安装 模块 ， 就 定义 了 编译 提示 CONFIG_MODULES， 使 文 持 可 安装 模块 的 代码 受到 
编译 ， 而 EXPORT_SYMBOL 也 只 有 在 这 种 情况 下 才 有 定义 。 

与 EXPORT_SYMBOL 有 关 的 定义 都 在 include/linux/module.h FP: 


151 /* Indirect stringification.  */ 

152 

153 #define . MODULE STRING 1(x) 8x 

154 — fdefine MODULE STRING(x) __ MODULE STRING 1(x) 


325 #define | EXPORT SYMBOL(sym, str) \ 

326 const char __kstrtab ##sym[ | x 

327 . attribute | ((section(". kstrtab"))) = str; \ 

328 const struct module symbol _ksymtab_##sym \ 

329 __attribute | ((section(^  ksymtab'))) = \ 

330 { (unsigned long) &sym, __kstrtab ##sym } 

331 

332 #if defined (MODVERSIONS) || ! defined (CONFIG MODVERSIONS) 

333 #define EXPORT SYMBOL(var) _ EXPORT SYMBOL (var, | MODULE STRING(var)) 
334 Helse 


335  #define EXPORT SYMBOL (var) \ 
. EXPORT SYMBOL(var, __ MODULE STRTNG( | VERSIONED SYMBOL (var) ) ) 
336 #endif 


第 332—336 行 是 条 件 编 诺 ， 即 在 不 同 条 件 下 对 EXPORT_SYMBOL 有 不 同 的 定义 。 为 什么 要 在 丰 
WE? 这 是 为 了 保证 内 核 与 可 安装 异 块 在 版 本 主 的 严格 一 致 。 要 保证 一 者 的 版 本 严格 一 致 ， 最 好 的 办 
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法 就 是 将 版 本 信息 编码 进 变量 名 中 ， 例 如 将 版 本 号 作为 变量 名 的 后 缀 。 这 样 ， 如 果 变 量 相同 而 版 本 号 
人 不一致，/sbin/insmod 就 会 认为 是 两 个 不 同 的 符号 而 不 予 连接 。 但 是 ， 另 ， 方面 ， 这 在 一 定 程度 上 也 带 
米 了 不 使 。 因 为 每 当 有 版 本 变动 时 就 要 重新 编 谋 〈 或 从 网 上 下 载 ) 许多 可 安装 模块 ， 而 有 些 版 本 变动 
实际 上 只 是 很 小 的 变动 ， 并 不 影响 运行 。 因 此 ， 内 核 把 是 否 将 版 本 信息 编码 进 符号 名 作为 一 个 可 选项 
提供 。 如 果 需 要 那样 做 的 话 ， 就 可 以 在 编译 内 核 代码 前 的 系统 配置 阶段 选择 这 个 可 选项 ， 而 使 条 件 编 
WES CONFIG_MODVERSIONS 成 为 有 定义 。 有 时 候 ， 虽 然 从 总 体 上 选择 了 使 用 版 本 信息 ， 但 对 十 
茶 些 源 代码 和 模块 中 的 符号 却 并 不 需要 搞 得 这 么 复杂 ， 这 时 就 可 以 在 编译 这 些 源 代码 时 在 命令 行 中 加 
上 “-D MODVERSIONS” 可 选项 ， 或 在 源 代码 文件 中 加 上 “jhdefine MODVERSIONS”， 使 该 文件 中 
定义 的 符号 摆脱 可 选项 CONFIG_MODVERSIONS 的 控制 。 

我 们 先 看 不 带 版 本 信息 的 符号 表 项 是 如 何 建立 的 .此 时 的 安 操 作 EXPORT_SYMBOL 定义 于 第 333 
行 。 以 符号 path init. 为 例 ， 此 时 EXPORT SYMBOLpathinb 的 定义 就 成 了 
. EXPORT. SYBOL(path init, “path_init”)。 而 第 325 行 又 进而 将 其 定义 为 两 个 语句 ， 第 一 个 语句 
《326 一 327 ÍT) 定义 了 一 个 名 为 __kstrtab_path_init 的 字符 串 ， 将 字符 串 的 内 容 初始 化 为 “path_init， 
并 将 其 置 于 内 核 映 象 中 的 .kstrtab 区 段 。 第 二 个 语句 (328~330 ft) 则 定义 了 一 个 名 为 
__ksymtab_path_init 的 module symbol 数据 结构 ， 将 其 初始 化 成 {&path_init，__kstrtab_path_init}， 并 
将 其 置 于 内 核 映 象 中 的 _ksymtab 区 段 。 这 样 ， 这 个 数据 结构 中 的 字段 value 的 值 为 path. init 在 内 存 映 
象 中 的 地 址 ， 而 指针 name 则 指向 字符 串 “path_init”。 顺 使 提 一 下 ， 这 里 定义 的 两 项 数据 都 是 const, 
初始 化 以 后 便 不 容 改 变 。 

采用 版 本 信息 时 的 操作 就 要 复杂 一 些 了 。 不 同 之 处 在 于 _EXPORT_SYMBOL 的 第 二 个 参数 先 要 
经 过 另 一 个 宏 操 作 _._VERSIONED_SYMBOL 的 变换 ， 这 个 宏 操 作 定 义 于 include/linux/modsetver.h: 


#define _ SYMBOL VERSION (x) | ver ## x 
#define __VERSIONED_SYMBOL2(x,v) x ## R ## v 

#define | VERSIONED SYMBOLl1(x,v) _  VERSIONED SYMBOL2 (x, v) 
Hdefine __VERSIONED SYMBOL (x) ^ 


— .VERSIONED SYMBOL1(x, | SYMBOL. VERSION (x) ) 


D c e c 


仍 以 path init 为 例 ， 宏 操作 _SYMBOL_VERSION(path_inib 首 先 将 其 变换 成 __ver_path_init， 然 

后 __VERSIONED1 又 将 path_init、_R 以 及 __ver_path_init 二 部 分 连 在 一 起 。 可 是 ， 经 过 这 样 的 处 理 ， 
最 后 形成 的 字符 串 中 并 没有 版 本 信息 的 编码 啊 ! 奥 妙 就 在 十 后 织 ver_path_init 并 不 是 最 终 用 来 与 前 面 
两 部 分 相连 的 字符 串 ， 它 也 还 只 是 -个 中 间 产 物 。 在 某 个 源 代码 文件 中 还 会 有 类 似 于 “#define 
__ver_path_init smp_1234abcd ”这 样 的 宏 定义 。 这 样 ， 把 三 部 分 连 在 … 起 以 后 后 形成 了 类 似 于 
"path init Rsmp_1234abcd” 这 样 的 字符 串 〈 这 里 smp 表示 内 核 支持 SMP 多 处 理 器 结构 )， 最 后 字符 
串 __kstrtab_path_init 的 内 容 就 成 为 “path_init_Rsmp_1234abed” 而 数据 结构 __ksymtab_path_init 中 的 
内 容 则 仍 为 {&path_init, __kstrtap_path_init}. 。 显 然 ，_Rsmp_1234abcd 即 为 包含 着 版 本 信息 的 符号 名 后 
缀 。 那 么 ， 这 个 后 缀 是 怎么 来 的 呢 ? 这 是 由 一 个 工具 /sbinygenksyms 根据 版 本 号 和 具体 符号 的 类 型 编码 
《CRC ) 产 生 的 。 熟 悉 C++ 的 读者 ` 定 会 联想 起 C++ 中 对 符号 ( 必 量 名 或 函数 名 ) 的 编码 ( 称 为 mangling )。 
读者 可 以 在 内 核 的 Makefile 和 Rules.make 中 找到 对 这 个 工具 的 应 用 ， 还 可 以 用 命令 “man genksyms" 
看 一 下 这 个 工具 的 说 明 。 由 工具 产 牛 的 输出 写 入 到 一 些 .ver 文件 中 ， 这 些 .ver 文件 则 又 被 include 到 
include/linux/modversions.h 中 。 这 个 ,h 文件 是 在 通过 make 生成 内 核 映 象 的 过 程 中 生成 的 ， 看 一 下 它 的 
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具体 内 容 ， 我 们 就 串 以 发 现 大 量 的 类 似 于 “#include <linux/ksyms.ver>” 这 样 的 “语句 ”。 

只 要 内 核 映 象 中 的 __ksymtab KREZ, A 核 就 有 对 外 公开 的 符号 ， 可 以 通过 系统 调用 
query_module( ) 查 询 。 此 外 ， 在 /proc 日 录 中 有 个 特殊 文件 ksyms， 用 来 提供 内 核 中 的 “移出 ”符号 清 
单 (包括 已 安装 模块 的 符号 )。 读 者 不 妨 用 命令 “more /proc/ksyms" 看 一 个 你 的 内 核 符号 是 奋 包 含 版 
本 信息 纲 码 。 


现在 ， 我 们 可 以 来 看 几 个 典型 模块 的 init_module( ) 和 cleanup_module( VAR T. 

我 们 要 看 的 第 一 个 模块 是 一 个 声卡 驱动 程序 ， 名 为 “sparcaudio 。 我 们 的 目的 并 不 在 于 了 解 共 体 
的 驱动 程序 代码 ， 而 主要 在 于 了 解 它 在 init_module( ) 中 向 系统 登记 、 从 而 建立 起 从 内 核 中 文件 系统 的 
愉 层 进入 其 具体 驱动 程序 的 途径 这 人 么 一 个 过 程 ， 以 及 在 cleanup_module( ) 中 将 这 个 途径 撤销 的 过 程 。 
另 一 个 使 我 们 对 它 感 兴趣 的 原因 是 , 它 还 并 不 是 真正 直接 豫 动 声卡 硬件 的 模块 ， 而 只 是 vis 层 与 物理 后 
之 间 的 一 个 中 间 层 次 。 它 一 方面 向 系统 登记 ,建立 起 从 vis 层 进入 它 的 途径 ; 另 一 方面 义 准 备 接受 来 日 
更 低层 模块 的 登记 ， 从 而 建立 起 进入 物理 层 的 途径 。 像 这 样 由 个 同 的 模块 来 实现 - 种 系统 结构 中 的 不 
同 层次 ， 从 而 形成 一 个 模块 “堆栈 ”的 做 法 ， 是 一 种 典型 的 程序 结构 和 实现 方式 (尤其 是 在 计算 机 网 
络 环境 下 )。 同时 , 它 也 是 模块 间 依 赖 关系 的 一 个 实例 。 这 个 模块 的 代码 在 drivers/sbus/audio/audio.c 中 。 
路 径 名 中 的 drivers/sbus 表示 有 关 的 代码 都 是 SUN 公司 的 Sparc 结构 工作 站 中 sbus 总 线 设 备 的 驱动 程 
序 。 我 们 不 准备 深入 到 sbus 的 细节 中 去 ， 而 只 是 用 它 作为 一 个 可 安装 模块 的 实例 。 

对 sparcaudio 的 支持 既 可 以 编译 成 一 个 可 安装 模块 ， 也 可 以 静态 地 编 详 连 接 进 内 核 的 映 象 。 内 核 
编译 之 前 的 系统 配置 阶段 为 用 户 提供 了 选择 手段 。 通 常 ， 对 每 -种 设备 或 功能 都 有 个 问题 让 用 户 国 | 
答 ， 这 个 问题 就 是 要 或 者 不 要 、 以 及 以 何 种 方式 支持 某 种 设备 或 功能 。 如 果 回 答 “Y” 就 表示 要 ， 并 且 
将 相应 的 代码 静态 地 连接 在 内 核 映 象 中 ; FS "M" 表示 要 ， 但 是 将 代码 编译 成 可 安装 模块 ， 否 则 三 
回答 “N”, 表 示 不 要 。 当 选择 将 代码 编译 成 可 安装 模块 时 ， 模 块 的 入 口 就 是 init_module( )， 就 好 像 千 
个 可 执行 程序 的 入 口 都 是 main( ) 一 样 。 虽 然 每 个 模块 都 有 -个 init_module( )， 但 是 这 些 模块 不 会 由 1d 
连接 在 一 起 , 所 以 不 会 互相 冲 究 。 但 是 , 如 果 将 代 但 编译 并 连接 进 内 核 映 象 ， 那 就 不 能 使 用 init_modle( ) 
这 个 函数 名 了 ， 那 样 会 造成 符号 名 冲突 而 不 能 连接 。 所 以 ， 对 sparcaudio 不 采用 可 安装 模块 方式 时 ， 
就 要 给 init. module( ) 函 数 换个 名 字 ， 这 里 叫 sparcaudio_init( )， 并 有 加 上 了 说 有 明 _init， 表 示 这 个 图 数 
是 个 初始 化 函数 ， 同 时 还 要 在 代码 中 加 上 这 人 么 一 行 : 


2230 — module init(sparcaudio init) 


Sarde US s EUR REC ER, ac Ld AT EUR ds. 即使 不 把 它 编译 成 可 安装 横 块 ， 代 全 
的 设计 和 实现 仍然 是 高 度 模块 化 的 。 
先 看 sparcaudio_init( )， 这 个 函数 在 drivers/sbus/audio/audio.c IE 


2200 static int |. init sparcaudio init (void) 


2201 { 

2202 /* Register our character device driver with the VFS. */ 

2203 if (devfs register chrdev (SOUND MAJOR, "sparcaudio", &sparcaudio fops)) 
2204 return -EIO; 

2205 
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2206 devfs handle = devfs mk dir (NULL, “sound”, NULL): 
2207 

2208 #iftdef CONFIG SPARCAUDIO AMD7930 

2209 amd7930 init( ); 

2210 #end if 

2211 #ifdef CONF LG SPARCAUDIO DBR1 

2212 dbri init( ): 


2213 #endif 

2214 #ifdef CONFIG SPARCAUDIO CS4231 
2215 cs4231 init( ); 

2216 #endif 

2217 #ifdef CONFIG SPARCAUDIO DUMMY 


2218 dummy init( ); 
2219 Hendif 

2220 

2221 return 0; 

2222 |] 


前 面 提 到 过 ， 当 以 不 同 的 模块 实现 一 个 系统 结构 中 的 不 同 层次 时 ， 会 形成 .个 “模块 堆 梧 之 所 
以 称 之 为 “堆栈 ”一 方面 是 因为 这 是 一 组 模块 ， 另 - 方面 是 这 些 模块 也 遵循 “后 进 先 出 ”的 原则 ， 位 
十 堆栈 (层次 意义 上 的 ) 顶部 的 模块 其 实 就 古 内 核 本 身 ， 昌 然 它 并 不 是 一 个 “可 安装 模 由 "从 这 个 音 
义 上 说 ,和 侠 一 个 模块 实际 上 都 存在 于 个 模块 堆栈 中 。 我 们 米 考察 -下 模块 堆栈 中 相 邻 两 层 间 的 内 而 。 
首先 ， 位 于 上 层 的 模块 肯定 要 调用 下 层 模块 中 的 函数 。 这 个 函数 调用 的 界面 是 标准 化 的 ， 那 就 是 类 似 
T file operations 一 类 包含 着 浮 数 指针 的 数据 结构 ， 由 卜 层 模块 通过 向 其 上 层 “登记 ”的 方式 递交 给 上 
层 。 除 此 以 外 ， 上 层 模块 就 不 能 、 也 不 应 直接 谢 用 下 层 模 抉 中 的 清 数 ， 战 访问 下 层 模块 中 的 变量 了。 
也 就 是 说 ， 上 上 层 模块 不 直接 引用 下 层 模 块 的 符号 ， 对 下 层 模 块 没有 依赖 关系 。 可 是 ， 反 过 来 下 层 借 块 
对 于 上 层 异 块 就 有 依赖 关系 了 。 每 一 个 模块 部 不 能 脱离 它 的 环境 而 存在 ， 而 送行 。 这 个 环境 就 是 由 位 
寺 其 上 层 的 模块 提供 的 。 至 少 ， 它 的 直接 十 层 应 提供 SABE nS Ch EE, BRE ob ye 
BE TAPS. RE, REDO TR ERR T ROK, M ede DL Sh Baa D 
要 问 位 于 其 下 层 的 模块 移出 若 十 符号 。 那 么 ， 赴 否 每 个 模块 都 直接 依赖 十 位 于 其 上 层 的 所 有 贷 块 最 ? 
都 便 不 一 定 ， 但 是 BA TS LA” AR Ae BRR BOER, BREER] 
用 这 些 模 块 中 的 符号 。 由 十 sparcaudio 并 不 是 处 于 最 底层 的 模块 ， 它 也 要 向 它 下 层 的 模块 移出 一 些 符 
‘Fo 对 二 2.1.0 以 前 的 版 本 ， 模 块 要 通过 -AKA register_symtab( ) 向 内 核 登 记 它 的 符号 去， 而 在 从 屠 
从 后 的 版 本 中 ， 对 异 块 符号 表 的 处 理 在 形式 上 就 与 内 核 一 致 了 。 模 块 sparcandio 的 符号 表 定义 为 ， 





2195 EXPORT SYMBOL(register sparcaudio driver): 
2196 EXPORT SYMBOL(unregister sparcaudio driver); 
2197 EXPORT SYMBOL (sparcaudio output done); 

2198 EXPORT SYMBOL (sparcaudio input done); 


这 个 模块 向 低层 模块 移出 的 符号 有 4 AS, BERETE FIT HH Io CAME RE ABER 
能 看 出 具体 的 符号 是 着 数 还 吓 变 量 ， 这 是 由 模块 间 的 界 自决 定 的 )， 其 中 前 两 个 显然 是 供 下 屋 模 块 登记 
和 撤销 登记 时 调用 的 函数 。 后 两 个 则 从 函数 名 可 以 看 出 是 供 低层 模块 在 完成 输入 /输出 后 “ 同 册 ”的 函 
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向 上 层 的 登记 是 遂 过 devfs register chrdev( ) 进 行 的 ， 这 个 函数 由 内 核 提供 并 移出 ， 定 义 二 


fs/devfs/base.c: 


[sparcaudio, init( ) > devfs register chrdev( )] 


1935 int devfs register chrdev (unsigned int major, const char *name, 
1936 struct file operations *fops) 

1937 {d 

1938 if (boot options & OPTION ONLY) return 0; 

1939 return register chrdev (major, name, fops); 


1940 } /* End Function devfs register chrdev */ 


登记 时 使 用 了 三 个 参数 ， 第 一 个 参数 是 模块 所 代表 设备 的 主 设备 号 SOUND MAJOR, Æ 
include/linux/major.h 中 定义 为 14: 


38 &define SOUND MAJOR 14 


第 二 个 参数 为 模块 名 ,而 第 二 个 参数 就 是 指向 该 种 设备 的 file_operations 数据 结构 的 指针 ， 这 个 数 
据 结构 也 是 在 drivers/sbus/audio/audio.c 中 定义 的 : 


1961 static struct file_operations sparcaudio fops = { 


1962 owner: THIS MODULE, 

1963 llseek: sparcaudio lseek, 
1964 read: sparcaudio read, 
1965 write: sparcaudio write, 
1966 poll: sparcaudio select, 
1967 ioctl: sparcaudio ioctl, 
1968 open: sparcaudio_open, 
1969 release: sparcaudio_release, 
1970 }; 


Xl] file operations 4474, Jet ii UH Cei T RORIS] [AeA CMR PERI) vis 层 )， 
而 没有 其 他 模块 了 了。 男 方向， 从 函数 名 devfs register chrdev( ) 了 岂可 以 看 出 ， 这 个 模块 所 支持 的 是 树 
状 设备 文件 系统 devfs， 并 且 声 卡 没 备 是 字符 设备 ， 个 过 ，devfs 的 字符 设备 登记 与 普通 设备 允 件 实际 
ADF], PRA register chrdev( ) 的 代码 在 fs/devices.c 中 : 


[sparcaudio init( ) > devfs register chrdev( ) > register chrdev( )] 


98 int register chrdev (unsigned int major, const char * name, 
struct file operations *fops) 


99 { 

100 if (major == 0) { 

101 write lock (&chrdevs_ lock); 

102 for (major = MAX CHRDEV-1; major > 0; major--) { 
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103 if (chrdevs[major]. fops == NULL) { 
104 chrdevs[major].name = name; 
105 chrdevs[major].fops = fops; 
106 write unlock (&chrdevs_ lock); 
107 return major; 

108 } 

109 ) 

110 write unlock(&chrdevs lock); 

111 return -EBUSY; 

112 } 

113 if (major >= MAX CHRDEV) 

114 return -EINVAL; 

115 write lock(&chrdevs lock); 

116 if (chrdevs[major]. fops && chrdevs[major].fops != fops) { 
117 write unlock(&chrdevs lock); 

118 return —EBUSY; 

119 j 

120 chrdevs[major]. name = name; 

121 chrdevs[major].fops = fops; 

122 write unlock(&chrdevs lock); 

123 return 0; 

124  ] 


登记 字符 设备 《以 及 块 设备 ) NH, BIURBDLOTEAXYRRSS. WUKGREDKIB8ERZ EUST TERRAS. 
当然 ， 由 内 核 分 配 的 主 设 备 号 只 是 临时 的 。 内 核 中 有 个 device struct 结构 数组 chrdevs[ ]， 这 是 一 个 以 
字符 设备 的 主 设备 号 为 下 标的 数组 ， 每 个 元 素 都 是 一 个 device struct 数据 结构 ， 有 关 的 定义 在 


fs/devices.c 中 : 


33 struct device_struct { 


34 const char * name; 
35 struct file operations * fops; 
38 h; 


"084 2*4 © © 97 


39 static struct device struct chrdevs[MAX CHRDEV]; 
40 


所 谓 登记 ,就 是 将 由 模块 提供 的 file operations 结构 指针 填 入 这 个 数组 (或 称 字符 设备 表 ) 的 某 个 
表 项 。 登 记 以 后 ， 只 要 知道 了 字符 设备 的 主 设备 号 ,号 可 以 很 快 找到 它 的 file_operations 数据 结构 ， 进 
而 找到 该 种 设备 的 各 种 驱动 函数 。 

登记 了 以 后 ， 位 于 由 层 的 模块 〈 在 这 里 是 内 核 ) 就 可 以 “看 见 ” 这 个 模块 了 。 但 是 ， 应 用 程序 却 
还 不 能 “看 见 ” 它 ， 因 而 还 不 能 通过 系统 调用 来 使 用 它 。 要 使 应 用 程序 能 “和 看见” 这 个 模块 或 者 这 个 
模块 所 驱动 的 设备 ， 就 上 在 文件 系统 中 为 其 创建 一 个 代表 它 的 节点 。 这 个 节点 可 以 是 在 单 层 的 /dev A 
录 中 的 一 个 节点 ， 也 可 以 是 在 多 层 的 设备 文件 月 录 下 的 一 个 节点 。 在 单 层 的 /dev 目录 中 ， 每 个 节点 都 
是 文件 节点 ， 每 个 节点 都 代表 一 个 具体 的 设备 ， 所 以 要 有 主 设 备 号 和 次 设备 号 两 项 参数 才能 创建 一 个 
节点 。 这 一 点 读者 在 mknod() 的 代码 中 已 经 看 到 过 了 。 对 于 多 层 的 devfs， 应 给 〈 由 主 设备 号 确定 的 ) 
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每 一 种 设备 都 创建 一 个 里 录 节 点 ， 在 这 个 目录 下 才 是 代表 具体 设备 的 文件 节点 。 渭 数 devis_mk_dir( ) 
的 作用 就 是 创建 这 样 的 目录 节点 。 

调用 这 个 函数 时 的 第 一 个 参数 dir 是 一 个 指针 ， 指 向 代表 父 日 录 节 点 的 devfs entry 数据 结构 ， 当 
dir Jj NULL 时 表示 父 日 录 节 点 为 devfs MAR AL, BI “/dev”. 与 普通 目录 节点 的 dentry 数据 结构 不 同 ， 
devfs 树 中 目录 节点 的 数据 结构 为 devfs_entry， 而 指向 这 种 数据 结构 的 指针 类 型 则 定义 为 
devfs_handle_t。 第 二 个 参数 为 待 创建 日 录 节 点 的 节点 名 ， 这 里 是 “sound”。 第 三 个 参数 则 为 节点 名 的 
长 度 ， 以 0 为 参数 表示 由 devfs_mk_dir( ) 计 算出 字符 串 的 长 度 。 最 后 一 个 参数 为 指向 附加 信息 的 指针 ， 
这 里 是 NULL， 表 示 并 无 附加 信息 。 由 于 读者 已 经 阅读 过 path_walk( )、mknod( ) 等 函数 的 代码 ， 这 里 
我 们 就 不 讲解 devfs mk dir ) 的 代码 了 ， 有 兴趣 的 读者 可 自行 阅读 。 

至 此 ， 模 块 sparcaudio 的 初始 化 实际 上 :已 经 完成 了 。 但 是 ， 这 个 模块 并 不 是 最 底层 的 模块 ， 所 以 
RES BEM GR) 下 层 。 如 果 它 的 下 层 也 是 通过 可 安装 模块 实现 的 ， 那 这 里 就 不 用 做 什么 了 ， 
为 在 安装 那个 模块 时 白 会 调用 其 init module( ) 函 数 。 可 是 ， 如 果 下 层 驱 动 程序 是 通过 静态 模块 实现 的 
话 ， 那 就 要 在 这 里 处 理 下 一 层 的 初始 化 了 。 根据 具体 硬件 的 不 同 ，sparcaudio 的 下 层 有 三 种 不 同 的 驱动 
程序 ， 另 外 为 程序 调试 的 目的 还 可 以 再 加 上 一 层 虚 设 的 驱动 程序 ， 所 以 这 里 有 4 个 条 件 编 译 的 语句 。 
我 们 假设 下 层 是 通过 可 安装 模块 实现 的 ， 所 以 就 跳 过 了 这 些 静态 模块 的 初始 化 。 至 于 同 文件 中 ， 在 
撤销 模块 时 调用 的 sparcaudio_exit( )， 就 留 给 读者 自己 阅读 了 。 由 于 这 个 模块 是 静态 连接 的 ， 代 码 中 相 
应 地 还 有 FT: 





2231 module exit (sparcaudio_exit) 


RA A DB MIT BRI THR. 

很 自然 地 ， 我 们 在 这 里 要 看 的 第 二 个 模块 就 是 位 于 sparcaudio 下 层 的 模块 ， 即 “amd7930”( 我 们 
假定 声卡 所 用 的 芯片 为 AMD7930)。 这 -次 ， 我 们 假定 amd7930 是 个 动态 安装 模块 ， 所 以 由 
sys_init_module( ) 在 安装 这 个 模块 时 调用 它 的 init_module( pk 3, FACES ZE drivers/sbus/audio/amd7930.c 
中 : 


[sys init module( ) > init_module( )] 


1677 /* Probe for the amd7930 chip and then attach the driver. */ 
1678 #ifdef MODULE 

1679 int init_module (void) 

1680 Helse 

1681 int __init amd7930_init (void) 

1682 Rendif 


1683 { 

1684 struct sbus bus *sbus; 

1685 struct sbus dev *sdev; 

1686 int node; 

1687 

1688 /* Try to find the sun4dc “audio” node first. */ 
1689 node = prom getchild(prom root node); 

1690 node = prom searchsiblings(node, ^audio^); 
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if (node && amd7930 attach(&drivers[0], node, NULL, NULL) == 0) 
num drivers = 1; 

else 
num drivers - 0; 


/* Probe each SBUS for amd7930 chips. */ 
for all sbusdev(sdev, sbus) { 
if (!stremp(sdev-^prom name, "audio^)) { 
/* Don’ t go over the max number of drivers. */ 
if (num drivers >= MAX DRIVERS) 
continue; 


if (amd7930 attach (&drivers[num drivers], 
sdev-»prom node, sdev->bus, sdev) == 0) 
num driverst+; 


/* Only return success if we found some amd7930 chips. */ 
return (num drivers > 0) ? 0 : -EIO; 


我 们 的 日 的 不 在 于 掌握 sbus 和 AMD7930 心 片 本 身 的 细节 ， 所 以 就 不 详细 深入 到 有 关 的 代码 中 去 
了 。 从 总 体 上 说 ， 这 段 程 序 所 做 的 就 是 ， 对 于 探测 到 的 伍 个 AMD7930 芯片 ， 即 音 类 信道 ， 从 结构 数 
组 drivers[ ] 中 分 配 一 个 数据 结构 ， 然 后 调用 amd7931_attach( )。 如 果 一 个 信道 也 没有 探测 到 ， 那 就 返回 
一 EIO 帮 示 模块 安装 失败 ， 合 则 就 返 叫 0 表示 安装 成 功 。 

Pe AX amd7931_attach( ) 的 代 仙 在 amd7930.c P: 


[sys init module( ) > init_module( ) > amd7930_attach( )] 
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/* Attach to an amd7930 chip given its PROM node, */ 
static int amd7930 attach(struct sparcaudio driver *drv, int node, 


{ 
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struct sbus bus *sbus, struct sbus dev *sdev) 


struct linux prom registers regs; 
struct linux prom irqs irq; 
struct resource res, *rosp; 
struct amd7930 info *info; 

int err; 


/* Allocate our private information structure. */ 
drv->private = kmalloc(sizeof(struct amd7930 info), GFP KERNEL); 
if (drv- private =- NULL) 

return -ENOMEM; 


/* Point at the information structure and initialize it. */ 
drv-^ops - &amd7930 ops; 


1583 
1584 
1585 
1586 
1587 
1588 
1589 
1590 
1591 
1592 
1593 
1594 
1595 
1596 
1597 
1598 
1509 
1600 
1601 
1602 
1603 
1604 
1605 
1606 
1607 
1608 
1609 
1610 
1611 
1612 
1613 
1614 
1615 
1616 
1617 
1618 
1619 
1620 
1621 
1622 
1623 
1624 
1625 
1626 
1627 
1628 
1629 
1630 


第 8 章 设备 驱动 


info = (struct amd7930 info *)drv—>private; 
memset (info, 0, sizeof (*info)) ; 
info->ints_on = 1; /* force disable below */ 


drv->dey = sdev; 


/* Map the registers into memory. */ 
prom getproperty (node, “reg”, (char *)&regs, sizeof (regs)); 
if (sbus && sdev) { 
resp = &sdev—>resource([0]; 
} else | 
resp = &res; 
res. start = regs. phys addr; 
res. end = res. start + regs. reg size - l; 
res. flags = TORESOURCE_10 | (regs. which_io & Oxff); 
} 


info—>regs size = regs. reg size; 


if (!info->regs) { 
printk (KERN ERR "amd7930: could not remap registers\n") ; 
kfree(drv— private); 
return -EIO; 


} 


/* Put amd7930 in idle mode (interrupts disabled) */ 
amd7930_idle (info) ; 


/* Enable extended FIFO operation on D-channel */ 

sbus writeb(AMR DLC EFCR, info—->regs + CR); 

sbus writeb(AMR DLC EFCR EXTEND FIFO, info->regs + DR); 

sbus writeb(AMR DLC DMR4, info->regs + CR); 

sbus writeb(/x* AMR DLC DMR4 RCV 30 | */ AMR DLC DMR4 XMT 14, 
info->regs + DR); 


/* Attach the interrupt. handler to the audio interrupt. */ 
prom getproperty(node, “intr”, (char *)&irg, sizeof (irq)); 
info->irq = irq. pri; 
request irq(info-^irq, amd7930 interrupt, 

SA INTERRUPT, ^amd7930^, drv); 
enable irq(info-^irq); 
amd7930 enable ints(info); 


/* Initalize the local copy of the MAP registers. */ 
memset (&info->map, 0, sizeof(info-^map)); 


AM MAP MMRI GR | AM MAP MMRI STG; 
/* Start out with speaker, microphone */ 
info->map. mmr2 |= (AM MAP MMR2 LS | AM MAP MMR2 AINB) ， 
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1631 

1632 / Set the default audio parameters. */ 

1633 info-?rgain = 128; 

1634 info~>pgain = 200; 

1635 info->mgain = Q; 

1636 info->format type = AUDIO ENCODING ULAW; 

1637 info->Bb. input format = AUDIO ENCODING ULAW; 
1638 info->Bb. output format = AUDIO ENCODING ULAW; 
1639 info->Bc. input_format = AUDIO ENCODING ULAW; 
1640 info-?Bc. output format = AUDIO ENCODING ULAW; 
1641 amd7930 update map (drv) ; 

1642 

1643 /* Register the amd7930 with the midlevel audio driver. */ 
1644 err - register sparcaudio driver(drv, 1); 

1645 if (err < 0) { 

1646 printk (KERN ERR ^amd7930: unable to register\n’) ; 
1647 disable_irg(info->irq) ; 

1648 free_irq({info->irg, drv); 

1649 sbus_iounmap(info->regs, info->regs_ size); 
1650 kfree(drv—->private) ; 

1651 return -EIO; 

1652 } 

1653 

1654 /* Announce the hardware to the user. */ 

1655 printk (KERN INFO "amd7930 at %lx irq %d\n’, 
1656 info-^regs, info->irgq): 

1657 

1658 /* Success! */ 

1659 return 0; 

1660 } 


同样 ,我 们 的 目的 不 在 于 这 段 程序 的 细节 ,因为 那 完全 取决 于 具体 的 硬件 和 具体 驱动 程序 的 设计 。 
我 们 在 这 里 关心 的 主要 有 两 件 事 。 其 一 是 对 函数 register_sparcaudio_driver( ) 的 调用 (1644 行 )， 这 个 函 
数 是 由 上 层 模块 sparcaudio 提供 的 ， 模 块 amd7930 通过 它 向 上 层 登 记 - 一 个 sparcaudio_driver 结构 指针 ， 
也 就 是 (代表 着 ) 一 个 AMD7930 芯片 。 其 二 (1582 行 )， 是 使 这 个 数据 结构 中 的 一 个 指针 ops， 指 向 在 采 
用 AMD7930 芯片 条 件 下 sparcaudio 设备 各 种 操作 的 函数 跳 转 结构 ， 即 sparcaudio_operations 结构 
amd7930_ops: 


1503 /* 

1504 * Device detection and initialization. 

1505 */ 

1506 

1507 static struct sparcaudio operations amd7930 ops = { 
1508 amd7930 open, 

1509 amd7930 release, 

1510 amd7930 ioctl, 
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1511 amd7930 start output, 

1512 amd/930 stop output, 

1513 amd7930 start input, 

1514 amd7930 stop input, 

1515 amd7930 sunaudio getdev, 

1516 amd7930 set output volume, 

1517 amd7930 get output volume, 

1518 amd7930 set input volume, 

1519 amd7930 get input volume, 

1520 amd7930 set monitor volume, 

1521 amd7930 get monitor, volume, 

1522 NULL, /* amd7930 set output balance */ 

1543 amd7930 get output balance, 

1524 NULL, /* amd7930 set input balance */ 

1529 amd7930 get input balance, 

1526 amd7930 set output channels, 

1527 amd7930 get output channels, 

1528 amd7930 set input channels, 

1529 amd7930 get input channels, 

1530 amd7930 set output precision, 

1531 amd7930 get output precision, 

1532 amd7930 set input precision, 

1533 amd7930 get input precision, 

1534 amd7930 set output, port, 

1535 amd/7930 get output port, 

1536 NULL, /* amd7930 set input port */ 

1537 amd7930 get input port, 

1538 amd7930 set encoding, 

1539 amd7930 get encoding, 

1540 amd7930 set encoding, 

1541 amd7930 get encoding, 

1542 amd7930 set output rate, 

1543 amd7930 get output rate, 

1544 amd7930 set input rate, 

1545 amd7930 get input rate, 

1546 amd7930 sunaudio getdev sunos, 

1547 amd7930 get output ports, 

1548 amd7930 get input ports, 

1549 NULL, /* amd7930 set output muted */ 
1550 amd7930 get output muted, 

1551 NULL, /* amd7930 set output pause */ 
1552 NULL, /* amd7930 get output pause */ 
1553 NULL, /* amd7930 set input pause */ 
1554 NULL, /* amd7930 get input pause */ 
1555 NULL, /* amd7930 set output samples */ 
1556 NULL, /* amd7930 get output samples */ 
1557 NULL, /* amd7930 set input samples */ 
1558 NULL, /* amd7930 get input samples */ 
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1559 NULL, /* amd7930 set output error */ 
1560 NULL, /* amd7930 get output error */ 
1561 NULL, /* amd7930 set input error */ 
1562 NULL, /* amd7930 get input error */ 
1563 amd7930 get formats, 

1564  ]; 


我 们 在 这 里 还 是 列 出 了 amd7930_attach( ) 的 全 部 代码 以 及 amd7930. ops 的 全 部 定义 ， 使 读者 对 物 
理 技 的 叔 动 程序 有 个 感性 的 认识 。 即使 林 深 入 到 具体 的 函数 中 去 , 我 们 也 能 从 amd7930_attach( ) 的 代码 
中 约略 地 看 到 : 它 将 芯片 中 的 寄存 器 映射 到 内 存 空间 ， 对 便 件 进行 初始 化 ， 为 来 日 AMD7930 芯片 的 
中 断 清 求 设置 好 中 断 服务 程序 (amd7930_interrupt( ))， 并 打开 中 肠 ， 然后 再 向 其 上 层 登 记 代表 给 定 芯 
片 的 数据 结构 。 问 时 ， 从 数据 结构 amd7930_ops 中 也 约略 可 以 看 出 对 AMD7930 芯片 的 操作 有 ， 打 开 / 
天 源 输 入 或 输出 、 控 制 输入 或 输出 的 音量 、 控 制 监听 音量 、 设置 输入 或 输出 信道 的 各 种 参数 和 对 电 平 
的 分 辨 举 、 设 置 数字 化 及 还 原 时 采用 的 编码 制式 以 及 采样 的 频率 等 等 。 应 用 程序 通常 通过 系统 调用 
ioctl( )2K Jc 2] 3x £6 R XR 

FRA. register sparcaudio driver( ) 是 山上 层 模块 sparcaudio 移出 ， 供 下 层 模块 《如 amd79300 用 来 
问 它 登记 的 。 除 此 以 外 ， 有 些 需 要 在 上 层 横 块 中 为 下 层 模块 完成 的 操作 ， 如 某 些 资源 的 分 配 ， 也 可 以 
放 人 在 这 个 函数 中 进行 《当然 ， 也 可 以 由 下 层 模块 白 己 完成 )。 所 以 ， 这 个 函数 所 做 的 事情 并 不 只 是 登记 
下 层 模 上 炭 ， 还 包括 为 具体 音频 信道 ( 即 amd7930 芯片 》 设置 缓冲 区 等 ， 所 以 代码 比较 长 ， 我 们 不 在 这 
时 列 出 其 代 仙 了 。 所 谓 登 记 ， 在 这 里 主要 是 将 -个 sparcaudio driver 结构 指针 传递 给 sparcaudio， 使 它 
可 以 通过 这 个 数据 结构 访问 具体 amd7930 信道 的 一 些 数据 ， 并 且 可 以 通过 结构 中 的 指针 ops 找到 对 
amd7930 操作 的 各 种 函数 指针 。 在 sparcaudio 模块 中 有 个 sparcaudio driver 结构 指针 数组 ， 用 来 保 让 已 
阿 它 登记 的 指针 ， 从 而 维持 与 下 层 模块 的 联系 ， 此 数组 的 定义 在 audio.c 中 给 出 : 


73 static struct sparcaudio driver *drivers [SPARCAUDIO MAX DEVICES] - 


相应 地 , 在 amd 7930 模块 中 则 有 一 个 sparcaudio. driver 结构 数组 , 也 叫 driver ], 定义 于 amd7930.c 
中 : 


118 static struct sparcaudio driver drivers[MAX DRIVERS]; 


这 两 个 数组 盟 然 同名 ,但 是 分 属 山 个 不 同 的 模块 。 两 个 模块 都 是 static, 所 以 即使 把 典 个 模块 都 作 
为 静态 模块 编译 并 用 连接 ， 也 不 会 造成 冲突 。 这 里 要 指出 ， sparcaudio +P Hi AA fi 4S sparcaudio_driver £j 
构 指 针 数 组 ， 这 并 不 意味 着 系统 中 要 安装 许多 个 amd7930 的 模块 ， 而 是 意味 着 系统 中 可 以 有 许多 个 
amd7930 45r. 所以，amd7930 模块 只 有 个， 但 是 它 操作 的 对 象 ， 或 者 说 操作 的 上 下 文 ， 却 可 以 有 
多 个 ， 击 数组 中 的 指针 则 指向 由 间 REL OS SAIS. 

除 登 记 sparcaudio_driver 结构 指针 以 外 ， register sparcaudio driver( ) 中 还 有 件 重要 的 事情 ， 那 就 是 
为 每 个 amd7930 芯片 在 文件 系统 中 创建 文件 节点 ， 使 应 用 程序 可 以 “看 见 ” 这 个 具体 的 设备 。 就 devfs 
设备 文件 系统 而 言 ， 这 是 通过 devfs register( ) 完 成 的 ， 在 山 sparcaudio 模块 所 创建 的 月 站 “sound” 下 
为 每 个 amd7930 芯片 创建 文件 节点 ， 如 “sound/audiol”、“sound/audio2” 等 等 。 实 际 上 ，amd7930 4 
个 很 复杂 的 芯片 ， 根 据 其 结构 可 以 进 - - 步 划分 成 混 音 、 数 学 信和 号 处 理 、 首 频 控制 /状态 等 功能 模 央 ， 所 
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以 在 sparcaudio 模块 的 设计 中 选择 将 次 设备 号 编码 表示 不 同 的 功能 模块 ， 而 为 每 一 个 功能 模块 都 创建 
一 个 文件 节点 ， 如 sound/audiol, sound/mixerl 以 及 sound/dspl 等 等 。 当 然 ， 也 可 以 选择 将 它们 合 在 一 
起 。 于 是 ， 每 个 这 样 的 文件 节点 都 对 应 着 一 个 次 设备 号 ， 侧 每 个 路 径 名 则 对 应 着 主 设 备 号 与 次 设备 号 
的 一 种 组 合 ，。 

总 之 ， 每 个 设备 驱动 模块 在 安装 后 都 要 使 它 的 上 层 模 块 能 “看 见 ” 它 ， 有 时 还 要 使 应 用 程序 也 能 
“看 见 ” 它 。 前 者 通过 向 上 层 模 块 登记 而 实现 ， 后 者 则 通过 mknod( )、devfs_mk_dir( )、devfs_register( ) 
一 类 的 前 数 实现 ; 并 月 既 可 以 由 下 层 模块 自己 完成 ， 也 可 由 其 上 层 模块 替 它 完成 ， 就 如 这 里 sparcaudio 
& amd7930 创建 文件 节点 那样 。 实 际 土 ， 后 者 在 本 质 上 也 是 一 种 登记 的 过 程 ， 例 如 mknod( ) 就 可 以 看 
成 是 由 内 核 提供 、 让 各 种 模块 向 文 件 系统 登记 的 函数 。 通 常 一 个 模块 堆栈 中 至 少 有 一 个 模块 需 归 为 应 
用 程序 所 见 。 


作为 实例 ， 我 们 再 看 一 下 amd7930 模块 的 cleanup_module( ): 


1713 #ifdef MODULE 
1714 void cleanup module (void) 


i715 { 

1716 register int i; 

1717 

1718 for (i = 0; i < num drivers; i++) 1 
1719 amd7930 detach (&driversLi]); 
1720 num drivers--; 

1721 } 

1722} 


(723 fendi f 

显然 ，amd76930_detach( ) 是 amd7930_attach( ) 的 逆 操 作 : 
[cleanup module( ) > amd76930 detach( )] 
1662 #ifdef MODULE 


1663 /* Detach from an amd7930 chip given the device structure. * / 
1664 static void amd7930 detach(struct sparcaudio driver *drv) 


16686 — | 

1666 struct amd7930 info *info = (struct amd7930 info *) drv->private; 
1667 

1668 unregister sparcaudio driver(drv, 1); 

1669 amd7930 idle(info); 

1670 disable irq(info-^irq); 

1671 free irq(info- irq, drv}; 

1672 sbus iounmap(info-^regs, info-^regs size); 

1673 kfree(drv >private) ; 

1674 ] 


1675 Hendif 


这 里 unregister. sparcaudio, driver( ) fH sparcaudio IRB iL. HE FHA iJ 9. AY AB TTD A, 
«4173 . 
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EJA devfs 文件 系统 中 删 去 相应 的 文件 节点 ， 释 放 有 关 的 缓冲 Ix ， 并 从 sparcaudio 的 指针 数组 drivers[ ] 
中 将 相应 的 表 项 恢复 成 NULL。 撤 销 向 上 层 的 登记 以 后 ， 还 要 将 有 关 便 件 设置 成 “空转 ”状态 ， 并 与 
中 汤 问 景 脱 钓 、 以 及 撤销 硬件 寄存 器 的 内 存 映 象 。 总之， 要 消除 amd7930_attach( ) 的 所 有 影响 ， 使 系统 
恢复 到 相应 的 amd7930_attacht ) 操 作 之 前 的 状态 。 | 

可 安装 模块 的 作用 并 不 局 限 填 设备 驱动 程序 的 实现 ， 对 作为 可 选项 的 许多 文件 系统 (格式) 的 支 
持 就 常常 是 通过 可 安装 模块 实现 的 。 此 外 ，socket 机 制 也 可 以 选择 通过 可 安装 模块 来 实现 。 至 于 各 种 
网 络 规程 的 实现 ， 那 就 更 是 非 可 安装 模块 莫 属 了 。 当 然 ， 网 络 规程 的 实现 也 可 以 看 作 是 广义 的 设备 驱 
DIEF. R- 方面 ， 模 块 在 应 用 程序 界面 上 的 表现 〈 即 文件 节点 ) 也 并 不 一 定 在 /dev 日 录 下 或 devfs 
子 树 中 ， 如 代表 着 插口 的 文件 节点 就 通常 不 在 这 些 目录 中 。 

个 模块 也 并 不 限于 只 由 一 个 文件 节点 代表 ， 许 多 模块 通过 create_proc_read_entry( ) 在 /proc 子 树 

中 也 创建 一 个 只 读 的 文件 节点 ， 供 用 户 或 应 用 程序 读 取 有 关 的 状态 和 统计 信息 。 更 进一步 ， 可 安装 模 
块 其 全 可 以 根本 不 与 /dev 日 录 和 devfs 打交道 , 也 不 使 用 主 设 备 号 和 次 设备 号 , 甚至 不 向 上 层 模块 登记 ， 
而 只 是 通过 proc_register( ) 在 /proc 文件 系统 中 创建 一 个 文件 节点 ， 内 核 通过 /proc 文件 系统 就 可 以 访问 
到 有 具体 的 模块 。 实 际 上 , proc_register( ) 是 将 向 上 层 模 块 (jproc 文件 系统 和 向 应 用 程序 界面 的 登记 (/proc 
子 树 中 的 文件 节点 ) 合 二 为 一 了 ， 所 以 只 适合 用 于 高 层 模 块 或 -- 共 只 有 一 层 的 模块 ， 总 之 是 直接 与 vfs 
层 接口 的 模块 。 这 个 阴 数 既 可 以 在 /proc 文件 系统 中 创建 文件 节点 ， 也 可 以 创建 目录 节点 和 符号 连接 节 
点 ， 因 此 可 以 用 来 在 /proc 目录 下 建立 起 类 似 十 devfs 的 多 层 结构 。 由 于 在 这 种 文件 节点 中 并 不 使 用 主 
设备 写 和 次 设备 号 , 就 特别 适用 于 - - 些 高 层 的 , 严格 说 来 算 不 上 设备 驱动 的 模块 (如 高 层 的 网 络 规程 )， 
以 及 BEANE RAR) 为 之 分 配 主 / 次 设备 号 的 模块 。 缺 点 是 它 只 支持 read( )、write( ) 和 lseek( ) 
三 种 文件 操作 ， 函 数 proc_register( ) 的 代码 在 fs/proc/generic.c FP: 


350 static int proc_register (struct proc_dir entry * dir, 
struct proc_dir_entry * dp) 


351 { 

352 int 1; 

353 

354 i = make inode number( ); 

355 if (i < 0) 

356 return -EAGAIN; 

397 dp->low_ino = i; 

358 dp->next = dir-—>subdir; 

359 dp->parent = dir; 

360 dir->subdir = dp; 

361 if (S_ISDIR(dp->mode)) { 

362 if (dp->proc_iops == NULL) { 

363 dp->proc_fops = &proc dir operations; 

364 dp->proc_iops = &proc dir inode operations; 
365 ) 

366 dir-^nlink-**; 

367 | else if (S ISLNK(dp-^mode)) | 

368 if (dp->proc iops == NULL) 

369 dp-?proc iops = &proc link inode operations; 
370 } else if (S ISREG(dp-»mode)) | 
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371 if (dp->proc_fops == NULL) 

372 dp->proc_fops - &proc file operations; 
373 ) 

374 return 0; 

375 } 


参数 dir 指向 父 目录 的 proc, dir entry 数据 结构 ， 如 果 父 目录 就 是 /proc 则 为 &proc_root。 男 一 个 参 
数 dp， 则 指向 待 创建 节点 的 proc. dir entry 结构 。 在 /proc 文件 系统 中 不 管 是 日 OH id ED CR 
使 用 同一 种 数据 结构 ， 即 proc_dir_entry， 并 且 该 结构 中 包含 了 通常 分 布 在 dentry 和 inode 两 种 数据 结 
构 中 的 信息 。 读 者 可 回顾 -~- 下 “i/proe 特殊 文件 系统 ”一 节 中 的 有 关内 容 。 在 调用 proc_register( ) 之 前 ， 
可 安装 模块 此 分 配 并 初步 设置 好 一 个 proc dir entry 数据 结构 。 这 个 数据 结构 中 有 三 个 函数 指针 
read proc. write proc LÀ get info, ， 应 分 别 指向 模块 中 的 相应 函数 ， 它们 的 界面 定义 本 


include/linux/proc_fs.h: 


4T typedef int (read proc t)(char *page, char ***start, off t off, 


48 int count, int *eof, void *data); 
49 typedef int (write proe t) (struct file *file, const char *buffer, 
50 unsigned long count, void *data); 


51 typedef int (get info t) (char *, char **, off t, int); 


其 中 get info 也 是 用 十 读 文件 的 ， 与 read, proc. HAZ ATF R OHA. FAC FE. 
read proc 多 了 最 后 两 个 参数 ， 一 -个 是 指针 eof， 几 来 返回 表示 文件 是 否 已 经 读 到 了 结尾 ， 男 一 个 指针 
data 就 是 proc_dir_entry 结构 中 的 指针 data， 可 以 用 来 传递 一 些 与 特定 数据 结构 有 关 的 信息 ， 例 如 类 似 
于 次 设备 号 那样 的 数据 结构 序号 。 不 过 ， 这 两 个 函数 中 内 能 选择 其 一 ， 用 了 read. proc 就 不 用 get info. 

在 函数 proc_register( ) 中 ， 根 据 待 创建 节点 的 性 质 (模式 〉 而 设置 其 proc. dir entry 结构 中 的 若干 
eet, UE AK WARY AE proc_fops 和 proc_iop 两 个 指针 ， 使 它们 分 别 指 问 /proc 文件 系统 的 
inode_operations 数据 结构 和 用 于 目录 节点 的 file operations 数据 结构 ， 如 果 是 符号 连接 市 点 就 使 
proc_iops 指向 /proc 用 于 符号 连接 的 inode_operations 数据 结构 ;而 如 果 是 文件 节点 则 使 proc_fops f& In] 
/proc 用 于 文件 节点 的 file operations 数据 结构 。 这 几 个 数据 结构 都 是 /proc 文件 系统 所 固有 的 。 前 三 个 
数据 结构 中 的 函数 指针 保证 了 当 应 几 程 序 通过 系统 调用 open( ) 在 内 核 中 局 动 path_walk( ) 时 能 找到 /proc 
文件 系统 中 的 节点 ， 而 最 后 一 个 数据 结构 中 的 函数 指针 ， 则 提供 了 进入 具体 模块 进行 读 / 写 的 “中 转 
Wh". 当 打开 一 个 /proc 文件 时 ， 内 核 会 在 proc_lookup( ) 中 通过 proc_get_inode( ) 为 目标 节点 创建 inode 
数据 结构 ， 把 指向 这 个 数据 结构 的 指针 proc_fops 复制 到 inode 结构 中 《指针 Ltop)， 然 后 又 复制 到 file 
结构 中 (指针 f op). 

我 们 来 看 看 这 个 数据 结构 ， 这 是 在 fs/proc/generic.c 中 定义 的 : 


36 static struct file operations proc file operations = { 


37 liscek: proc file lseek, 
38 read: proc file read, 
39 write: proc file write, 
40 } 


,73 ， 
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从 这 个 结构 中 可 以 看 出 ， 这 个 机 制 仅 支持 llseek、read 和 write 三 种 文件 操作 ， 而 不 支持 joctl。 在 
设备 驱动 程序 中 , ioctl 是 个 很 灵活 、 容量 很 大 , 因而 功能 很 强 、 很 重要 的 操作 。 例如 , 在 前 面 的 amd7930 
模块 中 定义 了 那么 多 的 低层 操作 ， 而 其 离开 了 对 iocti( ) 系 统 调用 的 支持 就 根本 无 法 实现 。 因 此 ， 缺 少 
对 ioctl 的 文 持 是 这 个 机 制 的 一 个 缺点 。 当 然 ， 以 后 在 更 新 的 版 本 中 也 许 会 把 这 一 点 考虑 进去 CFE LAB 
也 是 很 容易 的 事 )。 

其 次 ， 结 构 中 的 函数 指针 都 指向 由 /proc 文件 系统 提供 的 通用 性 程序 ， 而 不 是 指向 具体 模块 中 的 有 
关 通 数 。 以 读 哥 作为 例 ， 跳 转 时 的 第 一 站 为 proc_file_read( )， 其 代码 在 同一 文件 (generic.c) P; 


[sys read( ) > proc_file_read( )] 
40 static ssize t 


50 proc file read(struct file * file, char * buf, size t nbytes, loff t *ppos) 
51 { 


52 struct inode * inode = file-f_dentry—>d_inode; 

53 char *page; 

54 ssize t retval-0; 

55 int eof-0; 

56 Ssize t n, count; 

57 char *start; 

58 struct proc dir entry * dp; 

99 

60 dp - (struct proc dir entry *) inode->u. generic ip; 
61 if (!(page = (char*) ^ get free page(GFP KERNEL))) 
62 return —ENOMEM; 

63 

64 while ((nbytes > 0) && !eof) 

65 { 

66 count = MIN(PROC BLOCK SIZE, nbytes); 

67 

68 start = NULL: 

69 if (dp->get info) { 

70 f* 

11 * Handle backwards compatibility with the old net 
72 * routines. 

13 */ 

74 n = dp->get info(page, &start, *ppos, count): 
75 if (n € count) 

16 eof = 1; 

77 } else if (dp->read proc) { 

78 n = dp->read_proc (page, &start, *ppos, 

79 count, &eof, dp-data) ; 

80 } else 

8] break: 

82 

83 if ('start) { 

84 /* 
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85 * For proc files that are less than 4k 

86 */ 

87 start = page + *ppos; 

88 n -= *ppos; 

89 if (n <= 0) 

90 break; 

91 if (n > count) 

92 n = count; 

93 } 

94 if (n == 0) 

95 break; /* End of file */ 

96 if (n < 0) { 

97 if (retval == 0) 

98 retval = n; 

99 break; 

100 } 

101 

102 /* This is a hack to allow mangling of file pos independent 
103 * of actual bytes read. Simply place the data at page, 
104 * return the bytes, and set start’ to the desired offset 
105 * as an unsigned int. - Paul. Russel]@rustcorp. com. au 
106 */ 

107 n -= copy to user(buf, start < page ? page : start, n); 
108 if (n = 0) { 

109 if (retval = 0) 

110 retval - -EFAULT; 

111 break; 

112 } 

113 

114 *ppos += start < page ? (long)start : n; /* Move down the file */ 
115 nbytes -= n; 

116 buf += n; 

117 retval += n; 

118 } 

119 free page((unsigned long) page); 

120 return retval; 

121 ] 


在 第 69—80 行 中 ， 根 据 函 数 指针 get info 种 read proc 27774 NULL 而 调用 其 中 之 (或 二 者 都 
不 调用 ), 这 才 进 入 了 由 模块 所 提供 的 函数 中 。 经 过 这 样 be, 程序 的 执行 效率 多 少 受到 “点 影响 。 
相 比 之 下 ， 如 果 模 块 直接 向 内 核 登 记 其 file operations 数据 结构 ( 像 sparcaudio 那样 )， 则 在 经 由 
file operations 结构 跳 转 时 直接 就 进入 了 由 模块 提供 的 函数 。 

但 是 ， 尽管 如 此 ， 将 文件 节点 创建 在 /proc 文件 系统 中 还 是 很 有 吸引 力 的。 摆脱 了 对 主 /次 设备 号 六 
依赖 ， 就 使 可 安装 模块 的 设计 变 得 更 灵活 ， 并 央 不 再 有 设备 号 惟 性 的 问题 而 更 可 移植 ， 程 序 设计 也 
要 简单 一 些 。 

那么 ， 是 否 可 以 像 对 待 普 通 文件 那样 ， 把 代表 可 安装 模块 的 文件 节点 创建 在 文件 系统 中 任意 〈 除 
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/proc 文件 以 外 ) ATE EE? 如 果 人 不 使 用 主 / 次 设备 号 的 话 ， 至 少 在 月 前 的 内 核 上 是 不 行 的 。 这 里 的 轩 
难 在 于 file_operations 数据 结构 是 每 个 文件 系统 〈 类 型 ) 一 个 ， 而 不 是 每 个 文件 一 个 〈devfs 文件 系统 


那 是 可 以 的 。 可 正 是 因为 使 用 设备 号 才 更 有 必要 把 这 些 文件 集中 在 一 起 ， 因 为 那样 才 便 于 观察 到 设备 


号 的 冲突 。 


84 PCI 总 线 


说 到 外 部 设备 的 驱动 就 离 不 开 系 统 的 外 设 总 线 。 最 初 PC 机 中 的 外 没 总 线 只 是 8 位 的 , 就 是 说 每 次 
只 能 读 / 写 一 个 字 节 ;后 来 扩充 成 16 位 ， 称 为 ISA 总 线 ， 髓 后 来 义 扩充 成 32 位 的 EISA 总 线 。 但 是 ， 
随 着 技术 的 发 展 和 应 用 的 月 益 普 及 ， 人 们 逐渐 认识 刘 这 些 总 线 都 存在 着 一 些 重要 的 、 根 本 性 的 缺点 ， 
因而 需要 开发 出 一 种 全 新 的 总 线 。 当 时 提出 了 两 种 主要 的 候选 总 线 结构 ， 一 种 称 为 VESA， 另 … 种 就 
是 PCI. 经 过 一 段 时 期 的 竞争 ， PCI 总线 成 为 了 事实 上 的 标准 总 线 , 不 光 是 PC 系统 结构 中 的 标准 总 线 ， 
也 是 许多 其 他 系统 结构 中 的 标准 总 线 。 现 在 的 PC 机 一 般 都 提供 若干 PCI 总 线 插 模 ， 同 时 也 提供 少量 
ISA 总 线 插 构 以 求 跟 旧式 接口 卡 的 兼容 。 至 于 EISA， 则 还 米 不 及 推广 就 被 PCI 取代 了 。 以 前 ， 外 设 总 
线 一 般 都 是 与 具体 的 CPU 和 系统 结构 密切 联系 的 ，CPU 不 同 、 系 统 结 构 不 同 ， 采 用 的 总 线 也 就 不 同 。 
例如 ISA 总 线 就 是 用 于 采用 Intel X86 系列 CPU 的 PC 中 ，UNIBUS 和 Qbus 就 是 用 于 以 前 的 PDP-11 
中 ， 而 VME 总 线 则 用 于 Motorola 的 M68K 和 Power PC 系列 的 系统 中 。 这 一 点 可 以 说 是 历 米 如 此 。 
可 是 ， 自 从 PCI 总 线 问世 以 后 ， 却 很 快 就 成 为 了 通用 的 标准 总 线 ， 以 至 于 不 管 是 什么 CPU， 不 管 是 为 
哪 种 外 设 开发 的 芯片 组 ， 都 会 提供 中 PCI KEREN., Mik RM Lit, MF PCI 总 线 成 了 计算 机 系 
统 结构 的 中 心 ， 而 CPU 倒 反而 退 局 从属 的 地 位 了 。 随 着 多 处 理 器 SMP 结构 的 采用 和 普及 ， 这 种 趋向 
就 更 明显 了 ， 因 为 系统 中 可 以 有 许多 个 处 理 器 ， 而 PCI 总 线 印 往往 只 有 一 条 。 然 而 ，PCI 总 线 的 标准 ， 
即 其 规格 书 ， 是 个 不 太 好 读 、 不 太 好 理解 的 文本 。 拿 到 一 块 PCI 接 册 卡 或 者 一 组 芯片 ， 要 从 规格 书 或 
厂商 提供 的 说 明 书 出 发 ， 开 发 出 该 项 设备 的 驱动 程序 实 非 易 事 。 在 这 个 意义 上 ，Linux 内 核 中 有 关 的 源 
代码 恰恰 为 我 们 深入 理解 和 运用 PCI 总 线 ( 及 设备 ) 提 供 了 一 个 实例 、 一 个 样板 。 

以 后 ,为 行文 的 方 使 , 在 不 至 十 引进 湿 淆 的 场合 我 们 将 育 接 以 “总 线 ” 或 “PCI” 表 示 “PCI AR” 

那么 ，ISA 总 线 (以 及 PCI 以 前 的 那些 总 线 ) 到 底 有 些 什么 缺点 昵 ? 换言之 ，PCI 总 线 有 些 什么 优点 
呢 ? 

首先 , ISA DE EISA 的 速度 都 太 慢 。 这 丙种 总 线 的 时 钟 频率 都 是 8.33MHz, 就 算是 32 位 的 EISA， 
其 理论 上 的 最 大 通 量 也 不 过 是 每 砂 33MB(ISA 的 最 大 通 量 只 是 8.33MB)。 这 显然 不 能 满足 图 像 、 网 络 
等 方面 的 应 用 需要 。 例 如 ， 光 是 一 个 100 兆 的 Ethernet 接口 ， 其 理论 上 的 最 大 通 量 就 已 丝 超过 12MB 
了 。 但 是 ， 提 高 总 线 的 速度 并 不 单纯 是 个 提高 时 钟 频率 的 问题 。 在 高 速 的 条 件 下 ， 有 不 少 物理 问题 (如 
电信 和 号 的 传输 ) 要 考虑 和 解决 。 而 且 , 如 果 采 用 相同 的 插 槽 则 还 要 考虑 跟 已 经 存在 的 接口 RRA A n] HB 
所 以 ,PCI 总 线 采 用 了 完全 不 同 的 插 权 ,时 钟 频 率 则 提高 到 33MHz, 使 理论 上 的 最 大 通 量 提 高 到 133MB. 
而 且 ， 还 为 进一步 把 时 钟 琐 率 提高 到 66MHz、 总 线 宽度 提高 到 64 位 留 下 了 余地 。 

其 次 是 地 址 的 分 配 与 设置 。 就 像 存储 器 本身 是 一 种 资源 一 样 ， 存 储 器 的 地 址 也 是 一 种 资源 。 在 同 
INTE, AHER EE HTF 个 物理 的 存储 单元 ， 或 彰 就 空闲 不 用 。 人 在 i386 系统 结构 中 ， 对 
内 存 的 访问 和 对 输入 /输出 寄存 器 的 访问 通过 两 套 不 同 的 指令 完成 ， 所 以 有 存储 器 和 VO 两 个 不 同 的 地 
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理 地 址 还 可 以 通过 地 址 映射 机 制 来 一 次 转换 。 可 是 ， 怎 样 处 理 外 部 设备 上 的 存储 空间 呢 ? ISA (以 及 其 

他 早期 的 总 线 ) 接口 卡 上 都 采用 一 些 跳 线 或 小 开关 ， 将 接口 卡 插 上 总 线 前 部 要 先 通过 这 些小 开关 设置 

好 地 址 (还 有 中 断 请 求 号 )， 而 对 寺 软 件 则 也 此 在 一 个 “安装 ”过 程 中 加 以 设置 ， 使 二 者 相符 。 可 是 ， 这 

样 做 不 但 麻烦 ， 还 往往 成 为 系统 因为 地 址 冲突 或 不 符 而 个 能 正常 运行 的 原因 。 青 说 ， 随 着 外 部 设备 的 

日 益 复 杂 ， 这 样 做 已 经 不 大 现实 了 。 所 以 ， 理 想 的 办 法 是 由 系统 软件 自动 设置 ， 总 的 思路 是 ; 

(1) 每 块 接口 卡 (每 项 外 设 ) 都 道 过 某 种 途径 告诉 系统 ， 卡 上 有 几 个 存储 区 间 及 VO 地 址 区 间 ， 每 
个 区 间 是 多 大 ， 以 及 各 自在 卡 上 (本 地 ) 的 地 址 。 这 些 地 址 在 本 质 上 都 是 局 部 的 、 内 部 的 ， 所 
以 都 从 0 起算 。 但 是 ， 这 些 区 间 不 与 总 线 直 接 相 连 ， 在 把 接口 卡 插 上 总 线 并 加 电 之 初 ， 从 总 
线 上 述 访问 不 到 这 些 区 间 ， 所 以 不 会 互相 冲突 。 为 区 别 这 种 地 址 ， 我 们 不 妨 称 之 为 “ 卡 上 地 
址 ”虽然 实际 上 末 必 是 在 接口 卡 上 ， 有 些 外 设 蕊 片 其 实 是 固定 在 层 极 上 的 。 
(2) 系统 软件 在 知道 了 :共有 和 多少 外 部 设备 、 各 自 又 有 什么 样 的 存储 区 间 以 后 ， 就 可 以 统筹 地 为 

这 些 区 间 分 配 “ 物 理 地 址 ?， 并 上 用 建立 起 这 些 区 间 与 总 线 之 间 的 连接 ， 以 后 就 可 以 通过 这 些 
地 址 来 访问 。 显 然 ， 这 时 所谓 “物理 地 址 ”与 真正 的 物理 地 址 是 有 些 多 判 的 ， 它 实际 上 也 是 
一 种 逻辑 地 址 ， 所 以 常 称 为 “总 线 地 址 ”， 因 为 这 是 CPU 在 总 线 上 所 看 到 的 地 址 。 可 想 而 知 ， 
接口 卡 上 一 定 有 着 某 种 地 址 映射 杭 制 。 所 谓 “ 为 外 设 分 配 地 址 ”就 是 为 其 分 有 总 线 地 址 ， 
并 为 之 建立 起 映射 。 这 种 映射 代替 了 从 前 的 跳 线 或 小 开关 ， 卡 上 有 几 个 地 址 区 间 就 有 几 个 映 
射 。 对 于 CPU,“ 总 线 地 址 ”就 相当 于 物理 地 址 ， 还 可 以 通过 虚 存 地 址 的 映射 再 加 一 次 变换 。 
此 外 ， 对 于 中 断 请 求 线 的 连接 也 与 此 相似 。 

事实 上 ，PCI 总 线 正 是 这 样 设计 的 。 此 外 ， 对 于 IO 地 址 空间 与 内 存 地 址 空间 相 分 离 的 系统 结构 ， 
如 1386 结构 ， 还 可 以 选择 将 VO 寄存 器 的 地 址 也 映射 成 内 存 地 址 (总 线 地 址 )， 这 样 就 可 以 通过 访 内 指 
令 来 操作 这 些 寄 存 器 了 。 这 一 方面 有 可能 简化 程序 设计 ， 另 一 方面 也 可 避免 1386 系统 结构 中 IO 地 址 
室 间 太 小 (16 位 )、 太 拥挤 的 问题 。 

可 以 想像 ， 每 个 PCI 设备 或 者 接口 卡 上 一 定 有 许多 用 来 完成 这 个 过 程 ， 即 建立 起 这 些 连 接 利 映 射 
的 寄存 器 ， 系 统 或 设备 初始 化 的 时 候 要 通过 这 些 寄 存 器 米 “ 配 置 ”该 设备 的 各 个 总 线 地 址 区 间 。 可 是 ， 
这 些 寄存 器 本 身 的 地 址 又 怎么 办 呢 ? 这 不 是 又 回 到 了 原先 的 问题 吗 ? 下 面 读 者 就 会 看 到 ，PCI 总 线 的 
设计 者 对 这 个 问题 解决 得 很 好 【〈 但 是 从 程序 设计 的 角度 却 有 些 令 人 头痛 )。 

第 三 个 问题 是 对 使 用 总 线 的 竞争 。 在 早期 的 计算 机 系统 中 ， 整 个 系统 只 有 一 个 CPU， 从 总 线 的 角 
度 来 说 ， 这 个 CPU Sh “ERR” (Master), MRNA MRR”, 只 有 主 设 备 才 能 局 动 跨 总 线 的 
操作 。 需 要 由 “从 设备 ”启动 的 操作 也 是 有 的 ， 那 丈 是 对 内 存 的 DMA 操作 。 此 时 “从 设备 ” 先 向 CPU 
发 出 一 个 DMA 请 求 ， 让 CPU 暂停 访问 内 存 ， 实 际 上 是 暂停 包括 访问 总 线 在 内 的 一 切 外 部 操作 ， 使 系 
统 中 暂时 没有 了 “上 主 设备 ”。 得 到 允许 以 后 ， 这 “从 设备 ”就 暂时 升级 变 成 了 对 内 存 的 “十 设备 ” 从 
而 可 以 启动 内 存 操作 。 这 种 内 存 操作 当然 是 跨 总 线 的 ， 代 是 因为 CPU 已 暂停 活动 ， 所 以 不 存在 竞争 使 
用 总 线 的 问题 。 或 者 说 ， 对 (使 用 ) 总 线 的 竞争 元 于 对 (使 用 ) 内 存 的 竞争 之 中 。 可 是 ， 和 在 多 处 理 器 的 系统 
中 ， 对 总 线 的 竞争 就 成 为 问题 了 ， 如 果 两 个 CPU 同时 启动 跨 总 线 的 访问 ， 怎 样 来 解决 冲突 呢 ?” 还 有 ， 
随 着 技术 的 发 展 ， 一 些 “ 从 设备 ”， 基 外 设 接口 卡 也 带 上 了 智能 ， 有 了 本 地 的 处 埋 器 ， 在 这 样 的 情况 下 ， 
应 该 允许 一 个 “从 设备 ”直接 访问 另 一 个 “从 设备 ”上 的 存储 区 间或 VO 寄存 器 ， 布 不 必 由 CPU SPA. 
这 与 DMA， 即 “(由 外 设 ) 直 接 访问 内 存 ” 是 同样 的 概念 。 可 是 ， 如 果 - 一 个 “从 设备 ”此 直接 访问 另 一 
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个 “从 设备 ” 那 当 然 也 要 先 取 得 对 总 线 的 使 用 权 ， 暂 时 变 成 总 线 的 主 设备 。 为 了 解决 竞争 使 用 总 线 的 
问题 ，PCI 总 线 上 配备 了 一 个 仲裁 器 。 遇 有 冲突 时 ， 仲 裁 器 会 选 拌 其 中 之 (包括 CPU) 暂 时 成 为 当前 的 
“ 主 设备 ”， 而 其 他 的 则 只 好 等 待 。 由 此 又 生出 另 一 个 问题 来 ， 如 果 CPU, 或 个 设备 ， 想 要 启动 的 是 
与 操作 ， 但 是 由 于 冲突 而 一 时 不 能 成 为 总 线 的 “ 主 设备 ” 那么 它 是 只 能 停 下 来 等 待 : 还 是 可 以 让 它 把 
时 与 的 内 容 放 在 .一 个 缓冲 区 中 ， 把 它 托付 给 PCI 总 线 ， 日 已 则 接着 继续 运行 ? 显然 这 对 于 CPU 的 效率 
EAR AN). PCI 总 线 的 设计 考虑 到 了 这 个 问题 ， 为 写 操 作 提供 了 缓冲 。 当 然 ， 对 于 读 操 作 就 没有 办 
法 ， 只 好 等 待 了 。 所 以 ， 从 效果 上 看 ， 跨 PCL 总 线 的 所 操作 往往 比 读 操 作 快 。 呆 想 而 知 ， 在 这 个 方面 ， 
PCI 总 线 的 硬件 ( 必 片 ) 设 计 是 相当 复杂 的 ， 但 好 在 对 软件 是 “透明 ”的 ， 所 以 在 代码 中 看 不 到 这 个 问题 
Wek. BE, MF “MR” TEP ERA”, WKE LEX DMA 的 推广 ， 因 而 对 外 
部 设备 接口 的 说 计 与 实现 ， 进 而 对 设备 驱动 程序 的 代码 有 着 重要 的 影响 。 我 们 将 在 “ 块 设备 驱动 ” - 
廊 中 结合 DMA 操作 进一步 讨论 这 个 问题 。 


还 有 个 问题 是 总 线 的 扩充 问题 。- - 块 母 板 上 能 容纳 的 插 模 、 或 不 经 播 槽 直接 与 PCI 总 线 相连 的 芯 
片 的 数量 总 是 有 限 的 ， 能 不 能 在 需要 时 通过 一 块 接口 长 对 总 线 的 容量 加 以 扩充 ， 或 者 连接 上 另 一 条 ( 同 
种 或 异种 ) 总 线 昵 ? 读者 也 许 觉 得 这 个 问题 很 简单 ， 其 实 不 然 ( 不 过 我 们 在 这 里 就 不 深入 讨论 了 )。PCI 
总 线 在 这 方面 也 解决 得 很 好 。 人 们 设计 出 了 各 种 各 样 的 “PCI 桥 ” 芯 片 ， 通 过 一 个 PCI 桥 就 可 以 连接 
到 一 条 PCI 总 线 。CPU 通过 “宿主 一 PCI 桥 ” 与 条 PCI 总 线 相 连 ， 处 在 这 种 位 置 上 的 PCI 总 线 称 为 
“ 主 (Primary)PCI 总 线 ”， 或 者 就 称 “ 主 总 线 ”。PC 机 中 通常 只 有 一 个 “宿主 一 PCI 桥 ”， 但 是 在 特 
殊 的 系统 结构 中 也 可 以 有 多 个 。 在 -~ 条 PCI 总 线 的 基础 |.， 可 以 再 通过 “PCT 恬 ” 连 接 到 其 他 次 一 层 
的 总 线 , 例如 通过 “PCI-PCI tr” 可 以 连接 到 男 一 条 PCI 总 线 , 通过 “PCI-ISA EE" 可 以 连接 到 一 条 ISA 
总 线 。 事 实 上 ， 现 代 PC 机 中 的 ISA 总 线 正 是 通过 “PCLISA Br" IEEE PCI 总 线 上 的 。 这 样 ， 通 过 使 
用 “PCLPCI 桥 ”， 就 可 以 构筑 起 ”个 层次 的 、 树 状 的 PCI 系统 结构 。 对 于 上层 的 总 线 而 言 ， 连 接 在 这 
条 总 线 上 的 PCI HATH. (HAE, OARS, CME I DIRE, SER 
上 又 是 上 层 总 线 的 延伸 。 


实际 上 ， 在 PC 机 中 ，“ 宿 主 一 PCI 桥 ” 与 内 存 控制 器 往往 都 做 在 问 个 芯片 中 。CPU 与 这 个 器 
件 、 以 及 通过 这 个 器 件 与 内 存 的 连接 就 是 原 米 意义 上 的 “系统 总 线 ”， 而 道 过 这 个 器 件 直接 相连 的 就 
是 系统 的 主 PC 总 线 。 所 有 的 外 设 ， 包 括 磁 符 、 键 盘 、 鼠 标 器 、 并 行 口 、 串 行 口 、 网 络 卡 、 等 等 ， 企 
部 直接 或 间接 地 接 在 PCI 总 线 上 。 其 中 有 些 以 接口 本 和 插 槽 的 沦 式 相连 ， 有 的 则 固定 在 系统 母 板 上 通 
过 电子 线路 直接 相连 。 特 别 地 ，PC 机 中 般 还 通过 一 个 “PCI-ISA 桥 ” 连 接 到 一 条 ISA 总 线 ， 提 供 若 
FISA 插 槽 。 不 过 ， 插 在 ISA 总 线 上 的 接口 卡 就 不 其 备 PCI 的 地 址 映射 功能 了 。 此 外 ， 如 前 所 述 ， 需 
此 时 还 可 以 通过 “PCI-PCI 桥 ” 连 接 到 其 他 PCI 总 线 。 这 样 ， 如 果 把 CPU 比喻 作 一 个 城市 的 中 心 ， 系 
SF Sea Rae U EMO, EPC 总 线 就 好 像 是 “二 环 路 ”， 而 ISA 总 线 以 及 连 在 上 PCI 总 线 上 的 
其 他 PCL 总 线 就 是 “三 环 路 ”了 。 图 8.2 所 示 是 个 PC 系统 结构 的 示意 图 。 
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图 8.2 PC 系统 结构 与 PC1 RR 


图 8.2 中 在 系统 总 线 与 PCI 总 线 上 的 一 个 设备 之 间 有 条 虚线 ， 表 示 PCI 总 线 上 的 设备 在 完成 了 配 
置 以 后 就 好 像 连接 在 系统 总 线 上 上 一样。 而 在 此 之 前 则 对 于 系统 总 线 和 PCI 总 线 都 是 不 可 见 的 ， 所 以 不 
会 互相 冲突 。 对 于 连接 在 次 层 PCI 总 线 上 的 设备 也 是 一 样 。 此 外 ， 系 统 的 内 存 控制 器 与 HOST-PCI Bf 
通常 都 集成 在 同一 芯片 中 , 可 以 把 内 存 也 看 作 是 连 在 PCI 总 线 上 的 一 个 设备 , 不 过 它 永 远 是 “从 设备 ”。 

从 上 面 的 介绍 可 以 看 出 ，PCI 总 线 的 设计 考虑 到 了 种 种 方面 的 问题 ， 并 且 和 解决 得 很 好 ， 它 之 所 以 
能 成 为 受到 普遍 接受 的 标准 总 线 绝 不 是 偶然 的 。 

前 面 讲 过 ， 每 个 PCI 设备 或 者 接口 卡 上 有 许多 用 于 地 址 配置 的 寄存 器 ， 初 始 化 时 要 通过 这 些 寄存 
器 来 “配置 ”该 设备 的 总 线 地 址 。 - 旦 完成 了 配置 以 后 ，CPU 就 可 以 访问 该 设备 的 各 项 资源 ， 就 好 像 
那 是 内 存 的 一 部 分 一 样 ， 这 就 没有 什么 特殊 的 了 。 所 以 ， 本 节 的 重点 是 配置 PCI 设备 的 过 程 ， 与 这 个 
过 程 有 关 的 代码 并 不 简单 。 在 本 书 中 ， 我 们 把 每 个 设备 上 的 这 些 寄 存 器 合 在 一 起 称 为 该 设备 的 “配置 
寄存 器 组 ”。 

PCI 标准 规定 每 个 设备 的 配置 寄存 器 组 最 多 可 以 有 256 字 节 的 连续 空间 ， 其 中 开头 64 个 字 节 的 用 
途 和 格式 是 标准 的 ， 称 为 配置 寄存 器 组 的 “ 头 部 ”(configuration header). FE “kak” MAPA, 
其 中 “0 型 ” (type 0) 头 部 用 于 一 般 的 PCI 设备 ,“1 型 ” 头 部 则 用 于 各 种 PCI 桥 。 但 是 , 不 管 是 “0 型 ” 
还 是 “1 型 ” 其 开头 16 个 字 节 的 用 途 和 格式 总 是 共同 的 。 这 16 个 字 节 中 包含 着 有 关头 部 的 类 型 、 设 
备 的 种 类 、 设 备 的 一 些 性 质 、 由 谁 制造 等 等 信息 。 对 于 这 16 个 字 节 的 地 址 ，include/linux/pcih 中 定义 
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24 #define PCI_VENDOR_ID 0x00 /* 16 bits */ 
25 #define PCI_DEVICE_ID 0x02 /* 16 bits */ 
26 Hdefine PCI COMMAND 0x04 /* 16 bits */ 
38 #define PCI STATUS 0x06 /* 16 bits */ 


* c5 č è © 64 


54 #define PCI CLASS REVISION 0x08 /* High 24 bits are class, low 8 


55 revision */ 

56 Hdefine PCI REVISION ID 0x08 /* Revision ID */ 

57 #define PCI_CLASS PROG 0x09 /* Reg. Level Programming Interface */ 
58 #define PCI CLASS DEVICE 0x0a /* Device class */ 

59 


60 "define PCT CACHE LINE SIZE 0x0c /* 8 bits */ 
61 Sdefine PCI LATENCY TIMER Ox0d /* 8 bits */ 
62 #define PCI HEADER TYPE Ox0e /* 8 bits */ 


这 里 的 寄存 器 PCI HEADER TYPE 表明 是 哪 一 种 头 部 ，PCLCLASS_ DEVICE 和 
PCI_CLASS_PROG 则 表明 是 哪 一 种 设备 。 例 如 ，PCL CLASS. DEVICE 的 高 8 位 为 0x02 表示 是 网 络 设 
备 ， 而 低 8 位 为 0 H PCLCLASS_PROG 为 0， 又 进步 表示 这 是 Ethernet 接口 卡 。 又 如 ， 
PCI CLASS DEVICE 的 高 8 位 为 0x07 表示 是 “简单 通信 控制 器 ” 低 8 位 为 01 进一步 表示 是 并 行 口 ， 
准 中 的 一 种 操作 模式 )。 还 有 , PCI. VENDOR ID 表示 由 哪 一 家 厂商 制造 ,如 Intel 的 ID 号 码 是 0x8086、 
Compaq 的 ID 号 码 是 0x0e11。 这 些 号 码 是 由 - :个 统一 的 机 构 分 配 、 指 定 的 ， 所 以 不 会 重复 。 每 家 厂商 
对 其 产品 也 有 编号 ， 那 就 是 寄存 器 PCI DEVICE ID 中 的 内 容 。 所 有 这 些 信 息 都 是 由 厂商 固化 在 产品 
中 的 ， 不 会 变化 。 在 Linux 系统 上 ， 可 以 通过 “cat /proc/pci” 查 看 系统 中 所 有 PCI 设备 的 类 别 、 型 号 
以 及 厂商 等 等 信息 ， 那 就 是 从 这 些 寄存 器 来 的 。 

所 以 , 根据 这 些 信息 就 可 以 确定 应 该 怎样 进一步 解释 和 处 理 其 余 的 48 个 字 节 ,至 于 头 部 以 外 的 192 
个 字 节 ， 则 取决 于 具体 的 设备 ， 如 果 不 需要 也 可 以 没有 。 除 地 址 配置 以 外 ， 这 些 ( 头 部 ) 寄 存 器 还 有 个 重 
要 的 作用 ， 就 是 使 CPU 能 够 探测 到 相应 设备 (接口 ) 的 存在 ， 并 且 确 定 该 设备 的 种 类 和 一 - 些 特性 ， 包 括 
由 谁 制造 等 等 。 这 样 ， 用 户 就 不 青 需 要 通过 种 种 途径 告知 系统 都 有 哪 一 些 外 设 ， 调 改 由 CPU 通过 一 个 
称 为 “ 枚 举 ” 的 过 程 自 动 扫 描 探 测 所 有 连接 在 PCI 总 线 上 的 外 设 。 

如 前 所 述 ， 这 些 寄存 器 本 身 的 地 址 就 是 一 个 问题 。 首 先 ， 很 难为 不 同 的 设备 指定 不 同 的 起 始 地 址 ， 
因为 那样 就 又 加 到 了 原来 的 问题 上 。 试 想 ， 每 个 设备 都 可 以 有 256 字 节 的 配置 寄存 器 组 ， 如 果 绪 为 每 
一 种 可 能 的 设备 都 保留 个 同 的 地 址 ， 那 么 1024 种 设备 就 得 保留 236KB， 一 万 种 呢 ? 更 多 呢 ? 何况 这 又 
给 地 址 的 管理 带 来 了 麻烦 ， 这 显然 是 不 现实 的 。 比 较 好 的 办 法 是 让 所 有 设备 的 配置 寄存 器 组 都 采用 相 
同 的 地 址 ， 由 所 在 总 线 的 PCI 桥 在 访问 时 附加 上 其 他 条 件 来 区 分 。 而 CPU 则 通过 一 个 统 .的 入 口 地 址 
辣 “ 御 主 一 PCI 桥 ” 发 出 命令 ， 由 相应 的 PCI 桥 间接 地 完成 具体 的 读 写 。 对 于 1386 结构 的 处 理 器 ，PCI 
电线 的 设计 者 在 IO 地 址 空间 保留 了 8 个 学 节 用 于 这 个 目的 ， 那 就 是 OXCF8~OxCBF, 1X 8 个 字 节 实际 
上 构成 两 个 32 位 的 寄存 器 ， 第 一 个 是 “地 址 寄存 器 ”0xCF8， 第 二 个 是 “数据 寄存 器 ”0xCFC。 要 访 
回 茶 个 设备 中 的 某 个 配置 寄存 器 时 ，CPU 先 往 地 址 寄存 器 中 写 入 日 标 地 址 ， 然 后 通过 数据 寄存 器 读 写 
数据 。 不 过 ， 写 入 地 址 寄存 器 中 的 日 标 地 址 是 一 种 包括 总 线 号 、 设 备 号 、 功 能 号 以 及 配置 寄存 器 地 址 
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在 内 的 综合 地 址 ， 其 构成 如 图 8.3 所 示 。 
保留 不 用 (7 位 ) 总 线 号 (8 位 ) 设备 号 (5 位 ) | 功能 号 | 寄存 器 地 址 (8 位 ) 
(3 位 ) 最 低 岗 位 为 0 
图 8.3 写 入 地 址 寄存 器 0xCF8 的 综合 地 址 





最 高 位 为 ] 


这 里 的 总 线 号 、 设 备 号 以 及 功能 号 是 对 配置 寄存 器 地 址 的 扩充 ， 就 是 上 面 说 的 附加 条 件 。 首 先 ， 
每 条 PCL 总 线 都 有 个 总 线 号 ， 主 总 线 的 总 线 号 固定 为 0， 其 余 的 则 由 CPU 在 枚 举 阶 段 每 当 探 测 到 一 个 
PCI 桥 时 便 为 其 指定 一 个 ， 依 次 递增 。 设 备 号 一 般 代表 着 … 块 PCI 接口 卡 (更 确切 地 说 是 PCI 总 线 接口 
芯片 )， 通 常 取决 于 插 槽 的 位 置 。 每 块 PCI 接口 卡 上 可 以 有 若干 个 功能 模块 ， 这 些 功 能 模块 共用 同一 个 
PCI 总 线 接口 芯片 ， 包 括 其 中 用 于 地 址 映射 的 电子 线路 ， 以 降低 成 本 。 从 逻辑 的 角度 说 ， 每 个 “功能 ” 
实际 上 就 是 -项 设备 ， 所 以 设备 号 和 功能 号 合 在 一 起 又 可 以 称 作 “逻辑 设备 号 ”， 而 每 块 卡 上 最 多 可 以 
容纳 8 个 逻辑 设备 。 显 然 ， 这 些 宁 段 结合 在 一 起 就 惟一 地 确定 了 系统 中 的 一 项 PCI 逻辑 设备 。 读 者 也 
许 会 问 :一 开始 的 时 候 ， 在 尚未 为 各 条 总 线 指定 总 线 号 之 前 ， 又 怎样 来 访问 特定 的 总 线 呢 ? 事实 上 ， 
一 开始 的 时 候 只 有 0 号 总 线 是 可 访问 的 ， 在 扫描 0 号 总 线 时 如 果 发 现 上 面 某 一 个 设备 是 PCI 桥 ， 就 为 
之 指定 一 个 新 的 总 线 号 ， 例 如 1， 这样 1 号 总 线 也 就 可 以 访问 了 ， 这 就 是 枚 举 阶段 的 任务 之 -…。 

一 般 , 每 个 逻辑 设备 中 都 有 几 个 需要 映射 的 地 址 区 间 , 所 以 在 0 型 头 部 中 定义 了 6 个 “基地 址 ” 寄 
存 器 ， 可 以 分 别 用 于 6 个 地 址 区 间 的 映射 。 下 面 读 者 就 会 看 到 ， 对 这 些 寄存 器 的 操作 是 相当 复杂 的 。 
例如 ， 直 接 读 时 是 区 间 的 地 址 加 上 一 些 标志 位 ， 而 若 先 往 里 面 写 上 全 1 再 读 就 成 了 区 间 长 度 。 除了 这 6 
个 常规 的 区 间 外 ， 遥 辑 设备 中 有 时 候 还 会 有 一 块 ROM， 所 以 又 有 一 个 “扩充 ROM 基地 址 ” 寄存 器 。 
此 外 ， 还 有 用 来 设置 中 渐 请 求 线 的 寄存 右 以 及 其 他 几 个 寄存 器 。 

对 于 0 型 头 部 中 这 些 寄 存 器 的 地 址 ，include/linux/pci.h 中 定义 了 一 些 常数 ; 


12 /* 

73 * Base addresses specify locations in memory or 1/0 space. 
14 * Decoded size can be determined by writing a value of 

75 * Oxffffffff to the register, and reading it back. Only 
76 * ] bits are decoded. 

77 */ 


78  #define PCl BASE ADDRESS 0 0x10 /* 32 bits */ 

79 . #define PCI BASE ADDRESS 1 Oxi4 /* 32 bits [htype 0,1 only] */ 
80  #define PCI BASE ADDRESS 2 0x18  /* 32 bits [htype 0 only] */ 
81 #define PCI BASE ADDRESS 3 Oxlc /* 32 bits */ 

82 Hdefine PCI BASE ADDRESS 4 0x20 /* 32 bits */ 

83 . #define PCI BASE ADDRESS 5 0x24 /* 32 bits */ 
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96 
97 
98 
99 
100 


104 
105 
106 
107 
108 
109 
110 
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/* Header type 0 (normal devices) */ 

#define PCI CARDBUS CIS 0x28 

#define PCI SUBSYSTEM VENDOR ID Ox2c 

#define PCI SUBSYSTEM ID Ox2e 

#define PCI ROM ADDRESS 0x30 /* Bits 31..11 are address, 10..1 reserved */ 


< 8 © č è č a a 


#define PCI_CAPABILITY_LIST 0x34 /* Offset of first capability list entry */ 


/* 0x35-0x3b are reserved */ 

#define PCI_INTERRUPT_LINE Ox3c  /* 8 bits */ 
#define PCI_INTERRUPT_PIN Ox3d /* 8 bits */ 
define PCI MIN GNT 0x3e /* 8 bits */ 
Sdefine PCI MAX LAT Ox3f ^ /* 8 bits */ 


以 后 ， 随 着 代码 的 阅读 ， 读 者 白 会 明白 这 些 寄存 器 的 作用 和 有 关 的 操作 。 
PCI 桥 的 作用 种 功能 不 同 于 一 般 设备 ，1 型 头 部 中 的 寄存 器 自然 也 就 不 同 。 对 于 1 型 头 部 中 的 寄存 


器 地 址 ， 


112 
113 
114 
115 
116 
117 
118 


123 


124 
125 


128 
129 


134 


135 
136 
137 
138 
139 
140 
141 
142 


include/linux/pci.h 中 另 有 一 些 消 数 定义 : 


/* Header type 1 (PCI-to-PCI bridges) */ 

#define PCT PRIMARY BUS 0x18 /* Primary bus number */ 

define PCI SECONDARY BUS 0x19 /* Secondary bus number */ 

#define PCI SUBORDINATE BUS Oxla /* Highest bus number behind the bridge */ 
Edefine PCI SEC LATENCY TIMER Oxlb /* Latency timer for secondary interface */ 


H#define PCI IO BASE Oxlc /* [/0 range behind the bridge */ 

#define PCl 10 LIMIT Oxld 

#define PCI SEC STATUS Oxle /* Secondary status register, 
only bit 14 used */ 

define PCI MEMORY BASE 0x20 /* Memory range behind */ 

#define PCI MEMORY LIMIT 0x22 


#define PCI PREF MEMORY BASE 0x24 /* Prefetchable memory range behind */ 
Hdefine PCI PREF MEMORY LIMIT 0x26 


#define PCl PREF BASE UPPER32 0x28 /* Upper half of prefetchable 

memory range */ 
#define PCI PREF LIMIT UPPER32 Ox2c 
Hdefine PCI IO BASE UPPER16 0x30 /* Upper half of [/0 addresses */ 
define PCI IO LTMIT UPPERI6 0x32 
/* 0x34 same as for htype 0 */ 
/* 0x35-Ox3b is reserved */ 
Hdefine PCI ROM ADDRESSI 0x38 /* Same as PCI ROM ADDRESS, but for htype 1 */ 
/* Ox3c- 0x3d arc same as for htype 0 */ 
#define PCI BRIDGE CONTROL Ox3e 
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在 1 型 头 部 中 也 有 两 个 地 址 区 间 ， 所 以 前 面 定 义 的 寄存 器 PCLBASE_ADDRESS_ 0 和 
PCI BASE ADDRESS 1 (Ji 78 和 79 行 ) 也 适用 于 1 WLR. PCO 桥 跨 在 两 条 总 线 之 问 ， 寄 存 器 
PCI PRIMARY BUS 和 PCI SECONDARY BUS 的 内 容 就 说 明了 其 上 下 两 端的 总 线 号 ， 其 中 
PCI SECONDARY BUS 就 是 该 PCI 桥 所 连接 和 控制 的 总 线 ， 而 PCI SUBORDINATE BUS 则 说 明 自 
此 以 下 、 在 以 此 为 根 的 子 树 中 最 人 的 总 线 号 是 什么 。CPU 在 枚 举 阶 段 所 作 的 是 深度 优先 的 扫描 ， 所 以 
了 树 中 的 总 线 号 总 是 连续 递增 的 。 当 CPU 往 VO 寄存 器 0xCF8 中 写 入 一 个 综合 地 址 以 后 ， 从 0 号 总 线 
开始 ， 每 个 PCI 桥 会 把 综合 地 址 中 的 总 线 号 与 其 白 身 的 总 线 号 相 比 ， 如 果 相 符 就 用 逻辑 设备 号 在 本 总 
线 上 寻访 目标 设备 ;否则 就 进一步 把 这 个 总 线 号 与 PCI SUBORDINATE BUS 中 的 内 容 相 比 ， 如 果 上 月 
标 总 线 号 落 在 当前 子 树 的 范围 中 ， 就 把 综合 地 址 传递 给 其 下 的 各 个 次 层 PCI Er, ETRA THER. 
这 样 ， 最 终 就 会 找到 目标 设备 。 如 前 所 述 ， 这 个 过 程 仅 用 于 设备 的 配置 阶段 ， :日 完 成 了 配置 ，CPU 
就 直接 通过 有 关 的 总 线 地 址 访问 目标 疫 备 了 。 

同样 ， 我 们 把 1 型 头 部 中 的 其 他 一 些 寄存 器 也 放 到 阅读 有 关 代 但 时 再 介绍 。 

还 有 一 种 2 型 头 部 是 用 于 “PCI-CardBus 桥 ” 的 ，CardBus 是 笔记 本 电脑 中 使 用 的 总 线 ， 我 们 在 这 
里 不 感 兴趣 。 

由 于 PCI 总 线 的 重要 性 和 特殊 性 ，PC 机 制造 商 们 在 BIOS 中 提供 了 PCI 总 线 操作 ， 即 PCI 总 线 和 
设备 的 枚 举 以 及 配置 所 需 的 功能 与 服务 。 其 中 PCI 总 线 和 设备 的 枚 举 放 在 系统 加 电 以 后 的 自 检 阶段 ， 
而 对 配置 过 程 所 需 的 基本 操作 则 以 类 似 于 BIOS. 调用 的 形式 提供 服务 .考虑 到 击 代 的 PC 机 操作 系统 都 
己 采 用 保护 模式 和 页 式 映 射 ， BIOS 中 还 提供 了 一 个 特殊 的 PCI 操作 调用 入 口 ， 供 运行 十 保护 模式 和 页 
式 映 射 的 CPU 调用 。 提供 了 这 些 功 能 与 服务 的 BIOS 称 为 “PCI BIOS”. 早期 的 Linux 内 核 也 依靠 BIOS 
完成 对 PCI 的 枚 举 和 配置 操作 ,但 是 后 来 已 实现 了 自己 的 PCI 总 线 操作 而 不 再 依赖 杆 BIOS. ME, Æ 
否 采用 PCI BIOS 提供 的 服务 是 个 条 件 编译 选择 项 。 我 们 在 下 用 将 阅读 Linux AK cA PCI 总 线 操作 
的 代码 ， 因 为 只 有 这 样 人 4 能 真 止 搞 清 有 关 的 机 埋 ， 否 则 :进入 BIOS MEST BEAT, ROSDUÉRUEZCT 
些 什么 了 。 

不 过 ， 正 因为 Linux 内 核 以 前 也 采用 PCI BIOS 提供 的 服务 ， 所 以 有 很 多 消 数 的 沙 数 名 都 带 有 前 缀 
pcibios。 尺 管 现在 已 经 可 以 不 再 涉及 BIOS， 却 还 是 你 留 了 其 中 一 些 函 数 原来 的 函数 名 不 灾 ， 以 免 引起 
混乱 。 

我 们 先 看 几 个 低层 的 函数 , 这 些 蚌 数 就 是 通过 寄存 器 0xCF8 和 0xCFC 读 写 日 标 设备 上 的 配置 寄存 
器 时 使 用 的 。 对 配置 寄存 器 的 读 写 可 以 是 按 字 节 、 按 16 位 字 、 按 32 位 长 字 的 读 写 。 ASC gee 
在 编译 时 的 预 处 理 中 根据 宏 定义 生成 ， 这 个 宏 定 义 在 drivers/pci/pci.c P: 


478 /* 

479 * Wrappers for all PCI configuration access functions. They just check 
480 * alignment, do locking and call the low-level functions pointed to 

481 * by pci dev-^ops. 

482 */ 

483 


484 #define PCI byte BAD 0 

485 tdefine PCI word BAD (pos & 1) 
486 #define PCT dword BAD (pos & 3) 
487 
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488 &define PCI_OP (rw, size, type) \ 
489 int pci BürwH& config ##size (struct pci dev *dev, int pos, type value) \ 





490 { \ 

491 int res; \ 

492 unsigned long flags: \ 

493 if (PCI ##size## BAD) return PCIBIOS BAD REGISTER NUMBER; \ 
494 spin lock irgsave(&pci lock, flags); \ 

495 res = dev—>bus—>ops—>rw## ##size(dev, pos, value); \ 
496 spin unlock irqrestore(&pci lock, flags); X 

497 return res; \ 

498  ] 

499 


500 PCI OP(read, byte, u8 *) 
501 PCI OP(read, word, ul6 *) 
502 PCI OP(read, dword, u32 *) 
503 PCI OP(write, byte, u8) 
504 PCI OP(write, word, ul6) 


以 501 行为 例 ， 经 过 goc 预 处 理 的 字符 串 替 换 就 变 成 了 函数 pci read. config word( ) 的 定义 : 


int pci read config word (struct pci dev *dev, int pos, ul6* value) 
{ 

int res; 

unsigned long flags; 

if (PCI word BAD) return PCTBTOS BAD REGISTER NUMBER; 

spin lock irqsave(&pci lock, flags); 

res = dev-^bus-^ops-^read word(dev, pos, value); 

spin unlock irqrestore(&pci lock, flags); 

return res; 


) 


fa) FÉ 3b , H fi JL fT Bt 3E WM [| pei read config byte( ) . pci read. config dword( ) 、 
pci write config byte( ). pci write config word( ) 等 函数 的 定义 。 

再 看 pci read, config word( ) 的 代码 。 首 先 通 过 宏 操 作 PCI word BAD 检查 地 址 pos 是 否 与 16 位 
字 边 界 对 齐 ， 然 后 就 在 加 锁 且 不 允许 中 断 的 条 件 下 道 过 由 具体 设备 提供 的 函数 指针 完成 操作 。 这 里 参 
数 dev 指 回 代表 着 日 标 设备 的 pci dev 数据 结构 ， 读 者 在 后 面 将 会 看 到 pci dev 数据 结构 的 定义 ， 这 里 
我 们 先 简单 地 介绍 -一 下 所 涉及 的 几 个 学 段 。 这 个 数据 结构 中 有 个 指针 bus， 指 向 代表 者 设备 所 在 总 线 的 
pci bus 数据 结构 ( 见 后 )， 而 pci bus 结构 中 义 有 个 指针 ops， 指 癌 一 个 pei ops 数据 结构 ， 这 个 数据 结 
构 的 定义 在 include/linux/pci.h +: 


424 /* Low-level architecture-dependent routines */ 

425 

426 struct pci_ops { 

421 int (*read byte) (struct pci dev *, int where, u8 *val); 
428 int (kread word) (struct pci dev *, int where, ul6 *val); 
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int (*read_dword) (struct pci dev *, int where, u32 *val); 
int Ckwrite byte) (struct pci dev *, int where, u8 val); 
int Ckwrite word) (struct pci dev *, int where, ul6 val); 
int (*write dword) (struct pci dev *, int where, u32 val); 


显然 ， 这 是 一 个 函数 跳 转 表 ， 与 我 们 在 前 儿 章 中 看 到 过 的 一 些 数据 结构 相似 。 这 个 数据 结构 中 提 
供 的 函数 指针 都 是 用 来 读 / 写 PCI 设备 的 配置 寄存 器 的 。 内 核 中 有 于 个 pci_ops 数据 结构 ， 分 别 用 于 所 
谓 “1 型 ”和 “2 型 ”的 PO 配置 寄存 器 操作 (注意 不 是 1 型 和 2 型 的 头 部 )， 以 及 通过 BIOS 完成 的 操 
作 ， 均 定义 于 arch/i386/kernel/pci-pc.c. CPU 在 初始 化 时 根据 条 件 编译 或 对 硬件 的 测试 从 这 三 个 数据 结 
构 中 选择 使 用 其 一 。 在 PCI 总 线 发 展 的 后期 ， 有 些 “ 帘 证 一 PCI 桥 ” 曾 经 用 过 “2 AY” PCI 配置 寄存 器 
操作 , 但 是 后 来 在 PCI 总 线 栋 准 中 已 经 明文 规定 不 冉 咎 产 此 类 “宿主 一 PCIE BE". 所 以 ，pci_direct_conf2 
只 是 为 了 与 可 能 还 在 使 用 中 的 其 些 老 式 母 板 兼容 而 设 的 ， 实 际 上 一 般 都 会 选择 pci direct confl. 


static struct pci ops pci direct confl = | 


js 


pci confl read config byte, 
pci confl read config word, 
pei confl read config dword, 
pci confl write config byte, 
pci confl write config word, 
pci confl write config dword 


WM, LXRÉ pci read config. word( ) 是 通过 pci confi read config word( ) 完 成 的 ， 其 代码 在 
arch/i386/kernel/pci-pc.c TH: 


45 
46 
4T 
48 
49 
o0 


static int pci confl read config word (struct pci dev *dev, int where, ul6 *value) 


{ 


} 


outl (CONFIG _CMD (dev, where), OxCF8) ; 
*value = inw(OxCFC + (where&2)); 
return PCIBIOS, SUCCESSFUL; 


这 就 是 前 面 讲 的 通过 0xCF8 和 OxCFC PA ay FAS ACE AE ERIT. AP ATA, 


我 们 在 这 里 不 感 兴趣 ， 但 还 是 列 出 于 下 供 有 需要 的 读者 参考 ( 均 定 义 于 pci-pe.c). 


153 
154 
155 
156 
157 
158 
159 
160 


static struct pci ops pci direct conf2 = | 


pci confZ read config byte, 
pci conf2 read config word, 
pci conf2 read config dword, 
pci conf2 write config byte, 
pci conf2 write config word, 
pci conf2 write config dword 
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531 /* 

532 * Function table for BIOS32 access 
533 */ 

534 

535 static struct pci ops pci bios access = { 
536 pci bios read config byte, 
537 pci bios read config word, 
538 pci bios read config dword, 
539 pci bios write config byte, 
540 pci bios write config word, 
541 pci bios write config dword 
542 ] 


可 见 ， 如 果 要 由 BIOS 完成 对 PCI 设备 上 配置 寄存 器 的 读 写 ， 则 通过 一 个 函数 
pci_bios_read_config_word( ) 进 入 BIOS， 这 个 函数 的 代码 也 在 同一 文件 (pci-pc.c) 中 : 


441 static int pci bios read config word (struct pci dev *dev, int where, ul6 *value) 
442 | 


443 unsigned long ret; 

444 unsigned long bx = (dev—>bus—>number << 8) | dev-»devfn; 
445 

446 . asm ("lcall (%%esi); cld\n\t” 
447 ”jc lf\n\t” 

448 "xor %%ah, %%ah\n” 

449 one 

450 : “=c” (value), 

451 “=a” (ret) 

452 : “1” (PCIBIOS READ CONFIG WORD), 
453 "b" (bx), 

454 ^p^ ((long) where), 

455 "S^ (&pci indirect)); 

456 return (int) (ret & Oxff00) >> 8: 
451 j 


这 段 汇编 代码 通过 一 个 指 同日 标 地 址 和 段 地 址 的 结构 指针 pci indirect 调用 BIOS 中 的 一 个 函数 ， 
这 个 函数 就 是 BIOS 为 保护 模式 提供 的 PCI 配置 寄存 器 操作 的 总 入 口 ， 其 地 址 是 通过 扫描 PCI BIOS 的 
存储 区 间 ， 根 据 若 于 特殊 的 字 节 ( 称 为 “签名 ”) 而 找到 的 。 

除 由 geo 生成 的 上 述 这 一 组 函数 外 ， 内 核 中 还 有 另 一 组 类 似 的 、 但 是 版 本 较 老 的 函数 
pcibios read config byte( ) ~  pcibios read config word( ) ~  pcibios read config dword( ) ~ 
pcibios write config byte( ). pcibios write config word( ). pcibios write config dword( )， 这 是 为 了 与 
老 版 本 的 动态 安装 模块 兼容 而 保留 的 ， 定 义 于 drivers/pci/compat.c: 


51 &define PCI OP(rw, size, type) \ 
52 int pcibios 88rwH& config Htsize(unsigned char bus, unsigned char dev fn,V 
59 unsigned char where, unsigned type val) V 
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54 { \ 

55 struct pci dev *dev = pci find slot(bus, dev fn); \ 
56 if (!dev) return PCIBIOS DEVICE NOT FOUND; \ 

57 return pci_##rw##_config_##size(dev, where, val): X 
58 } 

59 


60 PCI OP(read, byte, char *) 
61 PCI OP(read, word, short *) 
62 PCI OP(read, dword, int *) 
63 PCI OP(write, byte, char) 
64 PCI OP(write, word, short) 
65 PCI OP(write, dword, int) 


以 61 行为 例 ， 经 过 预 处 理 以 后 就 变 成 了 这 样 ; 


int pcibios read config word (unsigned char bus, unsigned char dev fn, 
unsigned char where, unsigned type val) 


{ 


struct pci dev *dev = pci find slot (bus, dev fn); 
if (!dev) return PCIBIOS DEVICE NOT FOUND; 
return pci read config word(dev, where, val); 


可 见 ， 最 后 还 是 “ 九 九 归 一 ” 落实 到 新 版 本 的 pei, read. config. word( ) 上 。 


对 PCI 设备 的 枚 举 和 配置 都 是 在 初始 化 阶段 中 完成 的 。 一 旦 完成 了 初始 化 ， 以 后 的 操作 就 比较 简 
单 了 。PCI 总 线 的 初始 化 由 pei init( ) 完 成 ， 其 代码 在 drivers/pci/pci.c H: 


1162 void | init pei init (void) 


1163 { 

1164 struct pci dev *dev; 

1165 

1166 pcibios init( ); 

1167 

1168 pci for each dev(dev) { 

1169 pci fixup device(PCI FIXUP FINAL, dev); 
1170 } 

1171 

1172 #ifdef CONFIG PM 

1173 pm register(PM PCI DEV, 0, pci pm callback): 
1174 #endif 

1175  ] 


先 提 一 下 这 里 的 条 件 编译 选择 项 CONFIG_PM， 这 是 为 电源 管理 而 设 的 ，PM 就 是 “Power 
Management” 的 意志 ， 不 过 我 们 在 这 里 对 此 不 感 兴 
一 般 而 言 ， 只 要 是 采用 PCI 总 线 的 PC HL, Xt BIOS 就 必须 提供 对 PCL 总 线 操作 的 支持 ， 因 而 称 为 
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PCI BIOS。 这 种 BIOS 在 机 器 加 电 以 后 的 自 检 阶 段 会 从 系统 中 的 第 一 个 PCI 桥 ， 即 “宿主 一 PCIE 桥 ” Ff 
始 进行 探测 和 扫描 ， 逐 个 地 “ 枚 举 ”(enumerate) 连 接 在 第 一 条 PCI 总 线 上 的 所 有 PCI 设备 并 记录 在 案 。 
如 果 其 中 的 某 个 设备 是 个 “PCLPCI 桥 ” 则 又 前 进一步 ， 再 探测 和 扫描 连 在 这 个 桥 上 的 次 级 PCI 总 线 。 
就 这 样 递归 下 去 ， 直 到 穷尽 系统 中 的 所 有 PCI 设备 。 其 结果 是 在 内 存 中 建立 起 棵 代表 着 这 些 PCI 总 
线 和 设备 的 “PCI 树 ”。 一般 的 PC 系统 结构 中 部 上 只有-… 个 “宿主 一 PCI 桥 ”， 但 是 如 果 有 不 止 一 个 ， 也 
对 其 如 法 炮制 。 然 后 ， 操 作 系 统 可 以 通过 BIOS 调 几 来 获取 有 关 本 系统 中 PCI 设备 的 信息 。 当 操作 系 
统 要 进行 对 PCI 设备 的 配置 (config) 操 作 时 ， 也 可 以 通过 BIOS 调用 来 完成 。 

但 是 ， 在 实践 中 发 现 有 些 母 板 上 的 PCI BIOS 有 这 样 那样 的 问题 ， 再 说 有 些 系 统 〈 如 一 些 赃 入 式 系 
统 ) 根本 就 没有 BIOS， 所 以 后 来 Linux 内 核 也 提供 了 绕 过 BIOS, RRUA PCI 设备 (以 及 配置 ) 
的 功能 ， 而 把 是 否 通过 BIOS 进行 探测 和 枚 举 作 为 一 个 编译 选择 项 。 不 过 ， 尽 管 直接 的 PCI 设备 探测 
与 枚 举 跟 BIOS 并 无 关系 ,代码 的 作 省 还 是 把 这 部 分 操作 也 放 人 在 pcibios_init( ) 中 完成 ， 以 求 跟 老 的 函数 
名 一 致 。 

tK aX pcibios_init( ) 的 代码 在 arch/i386/kernel/pci-pc.c FP: 


[pei_init( ) > pcibios init( )] 


953 /* 

954 * Initialization. Try all known PCI access methods. Note that we support 
955 * using both PCI BIOS and direct access: in such cases, we use I/O ports 
956 * to access config space, but we still keep BIOS order of cards to be 
957 * compatible with 2.0. X. This should go away some day. 

958 */ 

959 

960 void | init pcibios init (void) 

961 { 

962 struct pci ops *bios - NULL; 

963 struct pci ops *dir - NULL; 

964 

965 &ifdef CONFIG PCT BIOS 

966 if ((pei probe & PCI PROBE BIOS) && ((bios = pci find bios( )))) { 
967 pci probe |= PCT BTOS SORT; 

968 pci bios present = 1; 

969 } 

970 Hendif 

971 #ifdef CONFIG PCI DIRECT 

972 if (pci probe & (PCI PROBE CONFI | PCI PROBE CONF2)) 

973 dir = pei check direct( ) ; 

974 . #endif 

975 if (dir) 

976 pci root ops 7 dir; 

977 else if (bios) 

978 pci root ops - bios; 

979 else { 

980 printk("PCl: No PCL bus detectedW^); 

981 return; 
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} 


printk( PCI: Probing PCT hardware\n’) : 
pci root bus = pci_scan_bus(0, pci root ops, NULL); 


pcibios irq init( ); 
pcibios fixup peer bridges( ); 
peibios fixup irqs( ); 

pcibios resource survey( ); 


#ifdef CONFIG PCI BIOS 


if ((pci probe & PCI BIOS SORT) && '(pci probe & PCI NO SORT)) 
pcibios sort( ); 


Sendif 


} 


编译 选择 项 CONFIG_PCI BIOS 表示 通过 BIOS 进行 PC] 设备 的 探测 和 榴 举 ， 


CONFIG PCI DIRECT 表示 直接 进行 PCI 设 备 的 探测 和 枚 举 。 一 者 不 是 互 斥 的 ,也 可 以 先 试 着 通过 BIOS 
探测 ， 若 不 成 功 再 亲 音 动手。 我 们 对 通过 PCI BIOS 进行 的 操作 不 感 兴 趣 ， 但 还 是 把 pci_find_bios( ) 的 
代码 列 在 下 和 面 供 读者 参考 , 一 方面 也 让 读者 对 怎样 发 现 PCI BIOS 并 找到 PCI 配置 操作 的 入 口 有 个 感性 
BA I Carch/i386/kernel/pci-pc.c) « 


[pci init( ) > pcibios init( ) > pci find. bios( )] 


544 
545 
546 
547 
548 
549 
550 
591 
552 
553 
554 
555 
556 
557 
558 
559 
560 
561 
562 
563 
564 
565 
566 


/* 
* Try to find PCI BIOS. 


static struct pci ops * __init pci find bios (void) 


{ 


union bios32 *check; 
unsigned char sum; 
int i, length; 


/* 

* Follow the standard procedure for locating the B10S32 Service 
* directory by scanning the permissible address range from 

* Oxe0000 through Oxfffff for a valid BIOS32 structure. 

*/ 


for (check = (union bios32 *) . va(0xe0000); 

check <= (union bios32 *) . va(Oxffff0) ; 
++check) { 
if (check->fields. signature != BIOS32 STGNATURE) 

continue; 
length = check->fields. length * 16; 
if (! length) 
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continue; 
sum = 0; 
for (i = 0; i < length ; ++i) 
sum, += check-?chars[i]; 
if (sum != 0) 
continue; 
if (check->fields. revision != 0) { 
printk("PCI: unsupported BIOS32 revision %d at Ox%p, V 
report to <mj@suse. cz>\n’, 
check->fields. revision, check); 
continue; 
} 
DBG( PCI: BIOS32 Service Directory structure at Ox%p\n”, check); 
if (check fields.entry >= 0x100000) | 
printk "PCI: BIOS32 entry (Ox%p) in high memory, cannot use. \n”, check); 
return NULL; 
} else { 
unsigned long bios32 entry = check->fields. entry; 
DBG (“PCI: BIOS32 Service Directory entry at Ox%lx\n”, bios32 entry); 
bios32 indirect. address = bios32 entry + PAGE OFFSET; 
if (check pcibios( )) 
return &pci bios access; 
} 
break; /* Hopefully more than one BI0S32 cannot happen... */ 


return NULL; 


这 里 BIOS32, SIGNATURE 是 一 串 特 殊 的 字 节 ， 定 义 于 同 -- 文 件 (pci-pc.c) 中 ; 


259 
260 


m: 


/* BIOS32 signature: " 32 " */ 
#define BIOS32 SIGNATURE WCC _” 0O CP «C3 * (2 16) eC —«« 2D) 


我 们 的 重点 是 对 PCI 设 备 的 直接 探测 与 枚 举 , 这 是 由 pei check. direct( ) 完 成 的 , 其 代码 也 在 pci-pe.c 


[pci init( ) > pcibios, init( ) > pct check direct ( )] 


192 
193 
194 
195 
196 
197 
198 
199 
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unsigned int tmp; 
unsigned long flags; 


save flags(flags); | cli( ); 
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200 * Check if configuration type 1 works. 

201 */ 

202 if (pci_probe & PCI PROBE CONF1) { 

203 outb (0x01, OxCFB); 

204 tmp = inl (OxCF8); 

205 outl (0x80000000, OxCF8) ; 

206 if (inl (OxCF8) == 0x80000000 && 

207 pci sanity check(&pci direct confl)) { 
208 outl (tmp, OxCF8); 

209 . restore flags(flags); 

210 printk( PCI: Using configuration type 11^); 
211 request region(OxCF8, 8, "PCI conf1”); 
212 return &pci direct confí; 

213 } 

214 outl (tmp, OxCF8) ; 

215 } 

216 

217 /* 

218 * Check if configuration type 2 works. 

219 */ 

220 if (pci probe & PCI PROBE CONF2) { 

221 outb (0x00, OxCFB); 

222 outb (0x00, OxCF8) ; 

223 outb (0x00, OxCFA); 

224 if (inb (OxCF8) == 0x00 && inb (OxCFA) == 0x00 && 
225 pci sanity check(&pci direct conf2)) { 
226 . restore flags(flags); 

227 printk( "PCI: Using configuration type 2^); 
228 request region(OxCF8, 4, "PCI conf2^); 
229 return &pci direct conf2; 

230 } 

231 } 

232 

233 | restore flags (flags): 

234 return NULL; 

235 } 


如 前 所 述 ,“ 宿 主 一 PCI 桥 ” 的 WO O- EE VO 地 址 为 OxCF8-0xCFF 处 ， 其 中 0x8-0xCFB 为 地 址 
O, OxCFC-OCFF 为 数据 口 。 但 是 ， 也 有 可 能 系统 中 根本 就 没有 PCI 总 线 存 在 ;或 者 再 进 -- 步 ， 没 有 
PCI 总 线 存在 ， 却 凑巧 有 个 ISA 设备 正在 使 用 这 些 地 址 。 针 对 这 些 可 能 性 ，PCI 总 线 标准 规定 了 测试 的 
方法 ， 所 以 这 里 先 按 1 型 操作 试 试 ， 如 果 成 功 就 从 212 行 返 回 了 ， 不 成 功 则 再 按 2 型 试 试 。 不 过 ， 如 
前 所 述 ，2 型 操作 现在 已 经 不 用 了 ， 所 以 对 1 型 操作 的 测试 一 般 总 能 成 功 。 

探测 到 一 个 1 型 “宿主 一 PCI 桥 ” 以 后 ， 要 进一步 采用 pci_direct_confl 通过 pci_sanity_check( ) 再 
加 验证 。 这 个 函数 的 代码 也 在 arch/i386/kernel/pci-pc.c FP: 


[pci init( ) > pcibios init( ) > pci check direct ( ) > pci_sanity_check( )] 
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162 /* 

163 * Before we decide to use direct hardware access mechanisms, we try to do some 
164 * trivial checks to ensure it at least seems to be working - we just test 
165 * whether bus 00 contains a host bridge (this is similar to checking 

166 * techniques used in XFree86, but ours should be more reliable since we 
167 * attempt to make use of direct access hints provided by the PCI BIOS). 
168 * 

169 * This should be close to trivial, but it isn't, because there are buggy 
170 x chipsets(yes, you guessed it, by Intel and Compaq) that have no class ID. 
171 */ 

172 static int . init pci sanity check(struct pci ops *o) 

173 . { 

174 ul6 x; 

175 struct pci bus bus; /* Fake bus and device */ 

176 struct pci dev dev; 

177 

178 if (pci probe & PCI NO CHECKS) 

179 return 1; 

180 bus. number - 0; 

181 dev.bus - &bus; 

182 for (dev. devfn=0; dev.devfn € 0x100; dev. devfn++) 

183 if ((!o->read_word(&dev, PCI CLASS DEVICE, &x) && 

184 (x == PCI CLASS BRIDGE HOST || x -- PCI CLASS DISPLAY VGA)) || 
185 (!o-»read word(&dev, PCI VENDOR ID, &x) && 

186 (x == PCI VENDOR ID INTEL || x == PCI VENDOR ID COMPAQ))) 

187 return l; 

188 DBG (“PCI: Sanity check failedWn^); 

189 return 0; 

190 } 


怎样 验证 呢 ? 我 们 知道 , 一 条 PCI 总 线 上 最 多 可 以 有 256 种 功能 , 或 者 说 256 个 逻辑 设备 ,而 “ 宿 
主 一 PCI 桥 ” 至 少 应 该 提供 PCL_ CLASS BRIDGE HOST 和 PCL CLASS DISPLAY VGA 这 二 者 之 一 。 
刘 果 都 人 没有， 那么 至 少 这 “宿主 一 PCI 桥 ” 芯 片 应 该 是 Intel 或 Compaq 制造 的 。 如 果 连 这 也 得 不 到 让 
实 ， 厚 就 还 是 只 能 认为 “宿主 一 PCI 桥 ” 实 际 上 并 不 存在 ， 前 面 从 PCI 口中 读 到 的 信息 只 起 碰巧 而 已 。 

“宿主 一 PCI 桥 ” 的 存在 得 到 验证 以 后 , 系统 中 就 多 了 一 项 IO 设备 , 占据 的 VO 地 址 区 间 从 0xCF8 
开始 ， 长 度 为 8。 所 以 ， 这 里 通过 request_region( ) 企 内 核 的 VO 设备 资源 树 ( 见 后 ) 中 增加 一 个 节点 。 表 
示 这 个 VO 地 址 区 间 已 由 “PCI conf1” 占 用 。 

如 果 成 功 地 发 现 了 一 个 1 型 “宿主 一 PCI 桥 ”， 际 数 最 终 返 回 指向 pci_direct_confl 的 指针 。 这 个 
pci ops 数据 结构 的 定义 已 经 在 前 耐看 到 过 了 。 从 此 以 后 ， 在 枚 举 和 配置 操作 中 采用 什么 方法 访问 PCI 
总 线 也 就 定 下 来 了 。 

回 到 pcibios_init( ) 的 代码 中 ， 接 着 (985 行 ) 就 是 对 PCI 总 线 的 扫描 ， 邮 对 连接 在 这 条 总 线 上 的 PCI 
设备 的 探测 与 枚 举 了 ， 这 是 出 pci_scan_bus( ) 完 成 的 ， 其 代码 见 drivers/pci/pci.c: 


[pci init( ) > pcibios_init( ) > pci scan bus ( )] 
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include/linux/pci.h FP: 


381 
382 
383 
384 
385 
386 
387 
388 
389 
390 
391 
392 
393 
394 
395 
396 
397 
398 
399 
400 
401 
402 
403 
404 
405 
406 


struct pci bus * . init pci scan bus(int bus, struct pci ops *ops, void *sysdata) 


{ 


struct pci bus *b = pci alloc primary bus(bus); 


if (b) 


{ 


b-^sysdata = sysdata; 


b-^ops = ops; 
b->subordinate = pci do scan bus(b); 


} 


return 


b; 


“宿主 一 PCI 桥 ”后 面 是 系统 中 的 第 -条 PCI 总 线 ， 称 为 “ 主 PCI 总 线 ” 在 内 核 中 ， 每 条 PCI 总 
线 都 由 一 个 pei bus 数据 结构 代表 ， 所 以 先 要 为 之 分 配 一 个 数据 结构 ， 这 种 数据 结构 定义 于 


struct pci bus { 


struct 
struct 
struct 
struct 
struct 
struct 


struct 
void 


struct proc dir entry *procdir; 


list head node; 

pci bus *parent; 
list head children; 
list head devices; 
pci dev *self; 


/* 
/* 
/* 
/* 
/* 


resource *resource[4]; 


pci ops 


unsigned char 


unsigned 
unsigned 
unsigned 


char 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


E 


char 
char 
char 


short 
short 
int 
char 
char 
char 
char 


/* 
/* 


*Ops; 
*sysdata; 


number; /* 
primary; /* 
secondary; /* 
subordinate; 
name [48] ; 
vendor; 
device; 
serial; /* 
pnpver; /* 
productver; /* 
checksum; /* 
padl; 


node in list of buses */ 
parent bus this bridge is on */ 
list of child buses */ 
list of devices on this bus */ 
bridge device as seen by parent */ 
/* address space routed to this bus */ 


configuration access functions */ 
hook for sys-specific extension */ 
/* directory entry in /proc/bus/pci */ 


bus number */ 

number of primary bridge */ 

number of secondary bridge */ 

/* max number of subordinate buses */ 


serial number */ 

Plug & Play version */ 
product version */ 

if zero - checksum passed */ 


系统 中 的 每 条 PCL 总 线 都 有 个 编号 number, ÈE PCI 总 线 的 编号 为 0。 

所 有 的 pei bus 数据 结构 都 互相 连接 在 起 ， 形 成 若干 (通常 具有 一 棵 )PCI MAM, SRR 
一 个 代表 着 “宿主 一 PCI BE" HE pei bus 结构 。 内 核 中 有 一 个 队列 头 pei_root_buses， 所 有 代表 着 “宿主 
一 PCI EF" If] pci. bus 结构 者 通过 其 内 部 的 队列 头 node 持 在 这 个 队列 中 。 同 时 ， 每 个 pci_bus 结构 本 身 
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叉 维持 着 两 个 队列 。 一 个 是 devices， 凡 是 连接 在 这 条 总 线 上 的 设备 都 有 个 pci dev 数据 结构 ( 见 下 ) 挂 在 

这 个 队列 中 。 为 一 个 是 children， 凡 是 通过 “PCI-PCI 桥 ” 连接 在 这 条 总 线 上 的 次 层 PCL 总 线 都 有 个 

pci_bus 数据 结构 挂 在 这 个 队列 中 。 这 样 ， 从 队列 pci_root_buses 开始 的 整个 层次 结构 就 反映 着 系统 中 

PCI 总 线 和 设备 的 配备 和 连接 。 而 pci_scan_bus( ) 的 日 的 正 是 要 在 内 存 中 建立 起 这 样 个 层次 结构 。 通 

第 系统 中 只 有 一 个 “宿主 一 PCI H”, 所 以 pci_root_buses 中 通常 只 有 一 个 节点 ， 也 就 是 只 有 一 棵 树 。 
每 个 PCI 设备 都 由 -一 个 pei dev 数据 结构 代表 ， 这 种 数据 结构 定义 于 include\linux\pei.h: 


311 /* 

312 * The pci_dev structure is used to describe both PCI and ISAPnP devices. 
313 */ 

314 struct pei dev ( 

315 struct list head global list; /* node in list of all PCI devices */ 
316 struct list head bus list; /* node in per-bus list */ 

317 struct pci bus *bus: /* bus this device is on */ 

318 struct pci bus *subordinate; /* bus this device bridges to */ 

319 

320 void *sysdata; /* hook for sys-specific extension */ 

321 struct proc dir entry *procent; /* device entry in /proc/bus/pci */ 
322 

323 unsigned int devfn; /* encoded device & function index */ 
324 unsigned short vendor; 

325 unsigned short device; 

326 unsigned short subsystem vendor: 

327 unsigned short subsystem device: 

328 unsigned int class: /* 3 bytes: (base, sub, prog-if) */ 

329 ug hdr_type; /* PCI header type ( multi’ flag masked out) */ 
330 u8 rom base reg; /* which config register controls the ROM */ 
331 

332 struct pci driver *driver;/* which driver has allocated this device*/ 
333 void *driver data; /* data private to the driver */ 

334 dma addr t dma mask;  /* Mask of the bits of bus address this 

335 device implements. Normally this is 

336 Oxffffffff. You only need to change 

337 this if your device has broken DMA 

338 or supports 64-bit transfers. */ 

339 

340 /* device is compatible with these IDs */ 

341 unsigned short vendor compatible[DEVICE COUNT. COMPATIBLE]; 

342 unsigned short device compatible[DEVICE COUNT COMPATIBLE]; 

343 

344 /* 

345 * Instead of touching interrupt line and base address registers 

346 * directly, use the values stored here. They might be different! 
347 */ 

348 unsigned int irg; 

349 struct resource resource[DEVICE COUNT RESOURCE]; 
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/* 1/0 and memory regions + expansion ROMs */ 


350 struct resource dma resource[DEVICE COUNT DMA]: 

351 struct resource irq resource [DEVICE COUNT IRQi; 

302 

353 char name[80] ; /* device name */ 

354 char slot name[8]; ^ /* slot name */ 

355 int active; /* ISAPnP: device is active */ 
356 int ro; /* ISAPnP: read only */ 

307 unsigned short. regs; /* ISAPnP: supported registers */ 
358 

359 int Okprepare) (struct pci. dev *dev); /* TSAPnP hooks */ 
360 int Gkactivate) (struct. pci. dev *dev) ; 

361 int (*deactivate) (struct pci dev *dev) ; 

362  ]; 


得 个 pei dev 数据 结构 都 同时 连 入 两 个 队列 ， IDE global list 挂 入 一 个 总 的 pei. dev 结构 队 
5); 同时 又 通过 bus_list TE AFL AT d£ 3 XJ pei. dev 结构 队列 devices， 并 且 使 指针 bus FHM REAM 
线 的 pci_bus 数据 结构 。 如 果 共 体 的 设备 是 个 “PCIPCI 桥 ” 则 还 要 使 其 指针 subordinate 指向 代表 着 另 
AS PCL 总 线 ( 次 层 PCI 总 线 ) 的 pei bus 数据 结构 。 


数据 结构 都 可 以 用 来 描述 -个 地 址 区 间 ， 包括 其 起 点 和 终点。 地 址 本 里 就 是 ”种 重要 的 “资源 ”对 于 
PCI 总 线 的 初始 化 ， 目 的 就 在 于 为 各 个 设备 上 的 各 个 区 间 分 杞 和 设置 地 址 ， 以 代替 从 前 手工 设置 岂 线 
或 小 开关 的 过 程 ， 因 和 而 在 这 个 过 程 中 所 涉及 的 首要 资源 就 是 地 址 ， 这 种 数据 结构 即 因 此 而 得 名 。 从 其 
种 意义 上 说 ,PCI 总 线 的 整个 初始 化 过 程 嘴 是 与 这 些 地 址 区 间 打 父 道 。 KF resource 数据 结构 后 面 还 此 
详细 介绍 。 

随 背 代码 的 阅读 ， 读 者 白 会 明白 上 面 这 两 个 数据 结构 中 其 他 一 些 字 段 的 作用 。 

PÁ ŽK pci_alloc_primary_bus( ) 的 代码 在 drivers/pci/pci.c "P: 


1026 — struct pci bus * | init pci alloc primary bus (int bus) 


1027 | 

1028 struct pci bus *b; 

1029 

1030 if (pei bus exists(&pci root buses, bus)) | 
1031 /* |f we already got to this bus through a different bridge, ignore it */ 
1032 DBG( PCI: Bus %02x already knownWn', bus); 
1033 return NULL; 

1034 | 

1035 

1036 b = pci alloc bus( ): 

1037 list add tail(&b-»node, &pci root buses); 

1038 

1039 b-»number - b->secondary - bus; 

1040 b-^resource[0] - &ioport resource; 

1041 b->resourceLl] = &iomem resource; 

1042 return b; 
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1043 


} 


Linux ARR Ra CRD 


同一 PCI 总 线 只 能 由 一 个 pei, bus 结构 代表 ， 在 PCI 树 中 或 pci, root. buses 队列 中 只 能 出 现 一 次 ， 
所 以 先 要 通过 pci bus, exists( WHER ES. SR bus 为 相应 PCI 总 线 的 编号 ， 在 这 里 是 0( 见 前 面 的 
985 行 )。 这 里 引用 的 ioport_resource 和 iomem resource 分 别 为 反映 着 VO 空间 和 内 存 空间 地 址 占用 情 
况 的 两 株 资 源 树 ， 后 面 我 们 偿 要 讲 到 。 

WE PC] 总 线 分 策 了 数据 结构 以 后 ， 就 可 以 开始 扫描 了 。 冰 数 pci do scan bus( ) 的 代码 在 
drivers/pci/pci.c "H: 


[pci_init( ) > pcibios init( ) > pci scan bus ( ) > pci_do_scan_bus( )] 


970 
971 
972 
973 
974 
975 
976 
977 
978 
979 
980 
981 
982 
983 
984 
985 
986 
987 
988 
989 
990 
991 
992 
993 
994 
995 
996 
997 
998 
999 


1000 
1001 
1002 
1003 


static unsigned int __init pci do scan bus(struct pci bus *bus) 


{ 
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unsigned int devfn, max, pass; 
struct list head *ln; 
struct pci dev *dev, devO; 


DBG (“Scanning bus %02x\n”, bus—>number) ; 
max = bus—>secondary; 


/* Create a device template */ 
memset (&devO, 0, sizeof (dev0) ) : 
devO. bus = bus; 

dev0. sysdata = bus->sysdata; 


/* Go find them, Rover! */ 

for (devfn = 0; devfn < 0x100; devfn += 8) { 
devO. devfn - devfn; 
pci scan slot (&dev0) ; 


} 


/* 
* After performing arch-dependent fixup of the bus, look behind 
* all PCI-to-PCI bridges on this bus. 
*/ 
DRG (“Fixups for bus %02x\n”, bus—>number) ; 
pcibios fixup bus (bus) ; 
for (pass-0; pass € 2; passt+) 
for (ln=bus->devices.next; In != &bus—>devices; tn=ln->next) 1 
dev = pci dev b(ln); 
if (dev->hdr type == PCI HEADER TYPE BRIDGE || 
dev->hdr type -- PCI HEADER TYPE CARDBUS) 
max = pci scan bridge(bus, dev, max, pass); 


/* 


BET RAMI 


1004 + We've scanned the bus and so we know all about what's on 

1005 * the other side of any bridges that may be on this bus plus 

1006 * any devices. 

1007 * 

1008 * Return how far we've got finding sub-buses. 

1009 */ 

1010 DRG ("Bus scan for %02x returning with max-*02xWn", bus-^number, max); 
1011 return max; 

1012 } 


扫描 一 条 PCI 心 线 的 直接 目的 就 是 逐个 地 发 现 连 接 在 该 总 线 上 的 PCI 设备 ， 为 其 建立 起 pci dev 
数据 结构 半 挂 入 相应 的 队列 ， 这 就 是 所 谓 校 举 。 所 以 ， 这 里 先 准备 下 一 个 空白 的 pci dev 结构 ， 然 后 依 
次 对 各 个 PCI 接口 通过 pei_scan_slot( ) 扫 描 ， 每 次 扫描 8 个 功能 ， 妈 8 个 逻辑 设备 ， 这 是 每 块 PCI 接口 
卡 上 的 最 大 容量 。 注 意 这 里 的 devin 是 将 前 述 的 5 位 设备 号 与 3 位 功能 号 合 在 一 起 的 “逻辑 设备 号 ”。 
这 个 函数 的 定义 也 华 drivers/pci/pci.c F: 


[pci_init( ) > pcibios_init( ) > pci, scan. bus ( ) > pci_do_scan_bus( ) > pci scan, slot( )] 


932 struct pci dev * . init pci scan slot(struct pci dev *temp) 
933 { 


934 struct pci bus *bus = temp-—>bus; 

935 struct pci dev *dev; 

936 struct pei dev *first dev = NULL; 

937 int func = 0; 

938 int is multi = 0; 

939 u8 hdr type; 

940 

941 for (func = 0; func < 8; func++，temp->devfn++) { 

942 if (func && tis multi) /* not a multi-function device */ 
943 continue; 

944 if (pei read config byte(temp, PCI HEADER TYPE, &hdr type)) 
945 continue; 

946 temp-»hdr type = hdr type & Ox7f; 

947 

948 dev = pci scan device (temp) ; 

949 if (!dev) 

950 continue; 

951 pei_name_device (dev); 

952 if (!func) { 

953 is multi = hdr type & 0x80; 

954 first dev = dev; 

955 } 

956 

957 /* 

958 * Link the device to both the global PCT device chain and 
959 * the per-bus list of devices. 

960 */ 
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961 list_add_tail (&dev->global_list, &pci devices); 
962 list_add_tail (&dev->bus list, &bus—>devices) ; 
963 

964 /* Fix up broken headers */ 

965 pci fixup device(PCT FIXUP HEADER, dev); 

966 } 

967 return first dev: 

968  ] 


一 个 物理 PCI 没 备 (接口 卡 ) 可 以 是 多 功能 的 , 也 可 以 是 单 功能 的 ， 如果 是 单 功 能 的 则 其 逻辑 设备 号 
De 8 的 倍数 (因为 低 3 位 的 功能 号 为 0), 而 - -个 设备 是 否 为 多 功能 要 从 设备 读 入 其 头 部 类 型 以 后 才能 
知 记 ( 头 部 类 型 字 节 的 最 高 位 为 1 表示 多 功能 ), 所 以 先 假定 为 单 功能 。 然 后 , 就 以 pci bus 结构 指针 temp 
为 参数 通过 pci_read_config_byte( ) 读 设备 的 头 部 字 节 , 注意 这 里 的 temp->devfn 为 目标 逻辑 设备 号 。 如 
前 所 述 , 这 个 函数 最 后 会 通过 由 一 个 pci_ops 结构 提供 的 函数 指针 完成 操作 。 读 到 了 头 部 类 型 字 节 以 后 ， 
其 低 7 位 为 类 型 编码 ( 见 946 行 )， 接 着 就 可 以 通过 pei scan. device( ) 进 一 步 读 取 具 体外 辑 设 备 的 配置 信 
夸 了 (drivers/pci/pci.c)。 前 面 讲 过 ， 每 项 逻辑 设备 的 配置 寄存 器 组 中 有 些 信息 是 由 / 商 提 供 、 固 化 在 里 
面 的 ， 有 些 信 息 ( 如 地 址 映射 和 总 线 号 ) 则 有 待 设置 。 


[pci init( ) > pcibios init( ) > pci scan. bus ( ) > pci_do_scan_bus( ) > pci scan slot( ) 
> pci, scan, device( )] 


808 /* 

890 * Read the config data for a PCl device, sanity-check it 
900 * and fill in the dev structure... 

901 */ 


902 static struct pci dev * __init pci scan device(struct pci dev *temp) 
903 { 


904 struct pci_dev *dev; 

905 u32 l; 

906 

907 if (pci read config dword(iemp, PCI VENDOR ID, &1)) 

908 return NULL; 

909 

910 /* some broken boards return 0 or “0 if a slot is empty: */ 

911 if (1 == Oxfffffftf || 1 == 0x00000000 :| 1 == 0x0000ffff || 1 == 0xftff0000) 
912 return NULL; 

913 

914 dev = kmalloc(sizeof (#dev), GFP KERNEL); 

915 if (!dev) 

916 return NULL; 

917 

918 memcpy (dev, temp, sizeof Ckdev)); 

919 dev—>vendor = 1 & Oxffff; 

920 dev->device = (1 >> 16) & Oxffff; 

92] 

922 /* Assume 32-bit PCI; let 64-bit PCI cards (which are far rarer) 
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923 set this higher, assuming the system even supports it. */ 
924 dev->dma_mask = Oxffffffff; 

925 if (pci setup device (dev) < 0) | 

926 kfree (dev); 

927 dev = NULL; 

928 } 

929 return dev; 

930 } 


首先 读 入 第 一 个 长 字 ， 其 低 16 位 为 厂商 编号 ， 高 16 位 为 设备 号 。 只 要 这 些 编号 不 是 全 1 ak 0， 
就 可 以 认为 是 有 效 的 编号 ， 从 而 设备 存在 。 所 以 要 分 配 一 个 新 的 pei. dev 数据 结构 并 设 兽 有 关 的 字段 ， 
Wa, IIT pci_setup_device( ) 进 … 步 从 PCI 口 读 入 有 关 这 个 设备 的 信息 ， 并 继续 设置 这 个 数据 结构 
(drivers/pci/pci.c). 


[pci init( ) > pcibios init( ) > pci scan, bus ( ) > pci_do_scan_bus( ) > pci scan, slot( ) 
» pci scan device( ) » pci setup. device( )] 


841 /* 
842 * Fill in class and map information of a device 
843 */ 
844 int pci setup device(struct pci dev * dev) 
845 f 
846 u32 class; 
847 
848 sprintf (dev->slot. name, ”%02x:%02x. %d”, dev-^»bus »number, 
PCT SLOT(dev-^devfn), PCI FUNC (dev->devfn)) ， 
849 sprintf (dev->name, "PCI device %04x:%04x”, dev->vendor, dev—device): 
850 
851 pci read config dword(dev, PCI CLASS REVISION, &class): 
852 class >>= 8; /* upper 3 bytes */ 
853 dev-?class = class; 
854 class >>= 8; 
855 
856 DBG( Found %02x:%02x [%04x/%04x] %06x %02x\n”, dev—>bus—>number, 
dev-»devfn, dev->vendor, dev-^device, class, dev-^hdr type); 
857 
858 switch (dev->hdr_type) { /* header type */ 
859 case PCI HEADER TYPE NORMAL: /* standard header */ 
860 if (class == PCI CLASS BRIDGE PCT) 
861 goto bad; 
862 pci read irq(dev); 
863 pci read bases(dev, 6, PCI ROM ADDRESS); 
864 pci read config word(dev, PCI SUBSYSTEM VENDOR ID, 
&dev-^subsystem vendor); 
865 pci read config word(dev, PCI SUBSYSTEM ID, &dev— subsystem device); 
866 break; 
867 
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868 case PCI HEADER TYPE BRIDGE: /* bridge header */ 
860 if (class != PCT CLASS BRIDGE PCI) 
870 goto bad; 
871 pci read bases(dev, 2, PCI ROM ADDRESSI):; 
872 break; 
873 
874 case PCI HEADER TYPE CARDBUS: /* CardBus bridge header */ 
875 if (class != PCI_CLASS BRIDGE CARDBUS) 
876 goto bad: 
877 pci read irq(dev); 
878 pci read bases(dev, 1, 0); 
879 pci read config word(dev, PCI CB SUBSYSTEM VENDOR ID, 
&dev—>subsystem vendor): 
880 pci read config word(dev, PCI CB SUBSYSTEM ID, &dev-^subsystem device); 
881 break; 
882 
883 default: /* unknown header */ 
884 printk (KERN ERR “PCI: device %s has unknown header type %02x, ignoring. WM, 
885 dev-^slot name, dev-^hdr type); 
886 return ~l; 
887 
888 bad: 
889 printk(KERN ERR 
"PCI: %s: class *x doesn't match header type %02x. Ignoring class. WM, 
890 dev-^slot namo, class, dev-^hdr type); 
891 dev—>class = PCI CLASS NOT DEFINED; 
892 ) 
893 
894 /* We found a fine healthy device, go go go... */ 
895 return 0; 
896  ] 


接着 是 读 入 用 于 设备 类 别 和 版 本 号 的 长 字 。 壬 往 下 就 取决 于 具体 设备 的 头 部 类 型 了 (858 íT) L 
类 型 PCI HEADER TYPE NORMAL 表示 该 设备 为 一 般 的 PCI 设备 ，PCI_HEADER_TYPE_BRIDGE 

先 看 一 般 的 PCI 设备 。PCI 设备 通常 都 是 可 以 发 出 中 断 请 求 的 ， 所 以 设备 配置 寄存 路 组 中 有 两 个 
字 节 , Bl PCI INTERRUPT PIN 和 PCI INTERRUPT LINE, 反映 着 该 设备 的 中 斯 请 求 信和 号 线 与 总 线 利 
系统 的 连接 方式 。 在 PCI E EA INTA~INTD 上 共 4 条 中 断 请 求 线 ， 从 而 在 PCI 插 槽 中 有 4 根 “ 针 ”。 
并 非 所 有 的 PCI 设备 部 能 产生 中断 请 求 ， 例 如 图 形 卡 就 多 半 不 能 产生 中 有 断 请 求 。 如 果 
PCI INTERRUPT PIN 字 节 为 0， 就 表示 本 设备 不 能 产生 中 断 请 求 。 但是， 如 果 - 一 个 PCI 设备 能 产生 中 
其 请求， 那么 在 设备 内 部 必定 已 经 把 中 靳 请 求 连 到 PCI 总 线 的 某 条 中 断 请 求 线 上 ， 此 时 
PCI INTERRUPT PIN 字 节 的 数值 1 一 4) 表 示 该 设备 的 中 断 请求 连 在 哪 一 条 线 上 |。 这 种 连接 是 出 硬件 决 
定 的 ， 所 以 PCI INTERRUPT PIN 字 节 是 个 只 读 的 字 节 ， 不 能 通过 软件 设置 。 可 是 ， 连 在 哪 :条 PCI 
中 断 请 求 线 上 只 是 事情 的 “个 方面 ， 还 有 个 最 终 是 连接 到 系统 的 中 断 控 制 器 (8259A 或 APIC) 上 的 哪 
条 中 断 请 求 线 的 问题 , 称 为 “中 断 请 求 路 径 ” 这 就 是 以 新 需要 通过 跳 线 或 小 开关 设置 的 肉 个 内 容 之 一 。 
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-一 一 


这 是 由 软件 选择 和 设置 的 ， 选 择 的 结果 就 存储 在 PCL INTERRUPT_LINE 字 节 中 。 这 里 要 指出 ， 这 个 
寄存 器 的 目的 只 是 保存 信息 ， 侧 并 不 带 有 控制 功能 。 da 8 改 成 9 DR 
味 着 改变 了 连接 的 目标 。 

这 里 通过 pei read irq( ) 读 入 这 两 个 字 节 ， 并 把 中 断 请 求 线 号 记录 在 pci dev 结构 中 
(drivers/pci/pci.c). 





[pci init( ) > pcibios init( ) > pci scan, bus ( ) > pci. do scan bus( ) > pei scan slot( ) 
> pci scan device() > pci setup device( ) > pci read, irq( )] 


827 /* 

828 * Read interrupt line and base address registers. 

829 * The architecture-dependent code can tweak these, of course. 
830 */ 

831 static void pci read irq(struct pci dev *dev) 

832 | 

833 unsigned char irq; 

834 

835 pei read config byte(dev, PCI TNTERRUPT PIN, &irg); 

836 if (irq) 

837 pci read config byte(dev, PCI INTERRUPT LINE, &irg); 
838 dev->irg = irq; 

839 ! 


PCI 设备 ( 接 > oo - RAM 和 ROM IX fü], SUB s icit Mcd 


间 。 坝 在 先 要 通过 pci read bases( us RUN E 的 地 址 读 进来 ， 对 i m PCI "-— 最 
多 可 以 有 6 个 这 样 的 RAM IB). PRA pci_read_bases( ) 的 代码 在 drivers/pci/pci.c 中 ， 我 们 分 两 段 阅读 。 


[pei_init( ) > pcibios_init( ) > Pci_scan_bus( ) > pci_do_scan_bus( ) > pci scan slot( ) 
> pci, scan. device( ) > pci, setup. device( ) > pci read, bases( )] 


547 static void pci read bases(struct pci dev *dev, unsigned int howmany, int rom) 
548 f 


549 unsigned int pos, reg, next; 

550 u32 l, sz; 

551 struct resource *res; 

552 

553 for(pos-0; pos<howmany; pos = next) | 

554 next = pos*l; 

555 res = &dev->resource pos] ; 

556 res->name = dev-?name; 

557 reg = PCI BASE ADDRESS 0 + (pos << 2); 
558 pci read config dword(dev, reg, &l); 
559 pci write config dword(dev, reg, ^0); 
560 pci read config dword(dev, reg, &sz); 
561 pci write config dword(dev, reg, 1): 
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562 if (!sz !| sz == Oxfffffrrr) 

563 continue; 

564 if (1 == Oxfffttff) 

565 ] = 0; 

566 if((] & PCT BASE ADDRESS SPACE)--PCI. BASE ADDRESS SPACE MEMORY) : 
567 res->start = ] & PCI BASE ADDRESS MEM MASK; 

568 SZ 7 pci size(sz, pC] BASE ADDRESS MEM MASK) : 

569 } else { 

570 res >start = ] & PCI BASE ADDRESS IO MASK: 

571 sz - pci size(sz, PCT BASE ADDRESS 10 MASK & Oxffff): 

572 } 

573 res->end = res->start + (unsigned long) sz; 

514 res->flags ;= (1 & Oxf) | pci calc resource flags(l); 

975 if CUE & (PCT BASE ADDRESS SPACE | PC] BASE ADDRESS MEM TYPE MASK)) 
576 == (PCI_BASE ADDRESS SPACE MEMORY ' PCI BASE ADDRESS MEM TYPE 64)) | 
571 pci read config dword(dev, reg+4, &1): 

578 nexttt: 


579 #1if BITS PER LONG == 64 


+ = èe +» 


588 Belse 

589 HW OD 

590 printk(KERN ERR 
“PCI: Unable to handle 64-bit address for device %s\n", dev 5slot name); 

591 res-2start ~ Q; 

592 res->flags = 0: 

593 continue; 

594 } 

595 #endif 

596 } 

597 } 


这 里 的 dev-»resource[ ] 是 pci. dev 数据 结构 中 的 : -个 resource 结构 数组 ， 用 来 记录 设备 上 各 个 地 直 
区 间 的 起 始 地 址 与 长 度 。 数 组 的 大 小 为 12， 这 是 因为 除 PCI 设备 的 6 个 常规 地 址 区 间 以 外 还 可 以 有 
个 扩充 ROM 区 间 ， 同 时 还 要 考虑 到 设备 为 PCI 桥 时 的 需要 。 
和 开设 备 的 阶 置 守 存 器 组 中 ,用 于 6 个 常规 地 址 区 间 的 长 字 玫 是 连续 的 ， 所 以 可 以 通过 一 个 for 循环 
米 读 出 ， 代 码 中 的 557 行 计 算出 各 个 长 字 的 起 始 地 址 。 操 作 时 ， 先 从 相应 的 长 字 中 读 (5$8 行 )， 恋 得 的 
数值 是 区 间 的 (本 地 ) 起 始 地 址 与 其 他 一些 信 息 的 组 合 ， 对 这 个 数值 的 解释 是 ， 
@ FA, UU, WU bito 表示 区 间 的 类 型 ， 为 0 表示 是 个 存储 器 区 间 ， 为 1 则 表示 是 个 O 
地 址 ( 即 寄存 器 ) 区 间 。 注 意 这 只 是 说 可 以 通过 什么 样 的 操作 (IO 指令 或 访 内 指令 ) 来 访问 这 个 
区 间 ， 而 与 其 内 容 是 否 为 寄存 器 无 关 ， 寄 存 器 也 可 以 通过 存储 单元 的 形式 米 实 现 〔 称 为 
“memory mapped”). 
e 如 不 是 存储 器 区 间 ， 那 么 其 高 28 位 就 是 起 始 地 址 的 高 28 位 (起 始 地 址 的 最 低 4 位 - : 定 是 0)。 
e WAZ UO. AMAIE 29 位 就 是 起 始 地 址 的 高 29 位 (起 始 地 址 的 最 低 3 位 一定 足 0). 
e 对 于 存储 器 区 间 ， 如 果 bi 为 1， 就 表示 对 这 个 区 间 的 操作 可 以 流水 线 化 ， 称 为 “ 林 俩 玻 ” 
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(prefetchable)， 和 否则 就 不 能 流水 线 化 ， 而 上 只 能 一 个 单元 一 个 单元 地 读 与 ( 见 后 )。 
e AB, bi 为 1 表示 采用 64 位 地 址 ， 为 0 表示 采用 32 位 地 址 。 
e 最 后 ，bitl 为 1 表示 区 间 的 大 小 超过 1MB， 为 0 则 表示 区 间 的 大 小 在 1MB AF. 


下 列 的 一 些 常数 定义 反映 了 对 这 些 标志 位 的 约定 (include/linux/pei.h): 
84 #define PCI BASE ADDRESS SPACE 0x01 /* 0 = memory, 1 = I/O */ 
85 Hdefine PCI BASE ADDRESS SPACE TO 0x01 


86 #define PCL BASE ADDRESS SPACE MEMORY 0x00 
87 define PCT BASE ADDRESS MEM TYPE MASK 0x06 
88 #define PCI BASE ADDRESS MEM TYPE 32 0x00 /* 32 bit address */ 
. 89 define PCI BASE ADDRESS MEM TYPE 1M — 0x02 /* Below 1M [obsolete] */ 
90 üdefine PCI BASE ADDRESS MEM TYPE 64 0x04 /* 64 bit address */ 
9] Bdefine PCI BASE ADDRESS MEM PREFETCH 0x08 /* prefetchable? */ 


从 配置 寄存 器 组 的 -个 长 字 中 读 出 了 区 间 的 起 始 地 址 以 后 ， 往 同一 长 宁 中 写 入 人 1559 行 )， 即 
Oxffffffff， 接 着 再 从 同 ，- 长 字 中 读 ($60 行 )， 这 时 候 读 得 的 数值 便 是 区 间 的 大 小 。 这 个 数值 的 低 4 位 或 
低 3 位 为 控制 信息 ， 这 一 点 上 与 起 始 地 址 的 格式 相似 ， 但 是 在 其 高 28 位 或 29 位 中 只 有 位 置 最 低 的 那 
位 1 才 有 效 。 区 间 的 大 小 必定 是 2 的 某 次 时 ,所 以 其 二 进 制 数值 中 应 该 只 有 一 位 是 1， 而 其 他 各 位 均 为 
0。 但 是 , 在 读 得 的 数值 中 却 通常 有 多 位 是 1, 此 时 只 有 位 置 最 低 的 那个 1 才 有 效 , 所 以 要 通过 pci_size( ) 
加 以 换算 (drivers/pci/pcei.c)。 


[pci init( ) > pcibios init( ) > pci scan bus ( ) > pci do scan, bus( ) > pci. scan, slot( ) 
> pci scan device( ) > pci, setup device( ) > pci read bases( ) > pci size( )} 


537 /* 

538 * Find the extent of a PCI decode.. 

539 */ 

540 static u32 pci size(u32 base, unsigned long mask) 

54 | 

542 u32 size = mask & base; /* Find the significant bits */ 

543 size = size & "(size-1); /* Get the lowest of them to 
find the decode size */ 

544 return size-l; /* extent = size - 1 */ 

545  ] 


这 下 先 用 mask 把 最 低 的 4 位 或 3 Maa, fue rHOBEBUSHIKI AST 1 抽取 出 来 。 例 如 ， 假 定 把 
最 低 的 4 位 或 3 位 屏蔽 掉 以 后 得 到 size 的 数值 是 Oxffft0100, 则 (size 一 1 为 0xffff00ff， 而 ~(size 一 1) 束 是 
0x0000ff00， 最 后 得 到 size = 0xffff0100 & 0x0000ff00 = 0x100. XXE, WH size 的 .: 进 制 数值 中 位 置 最 
低 的 那个 1 抽取 了 出 米 ， 从 而 得 到 size 的 实际 数值 为 0x100， 则 区 间 的 大 小 为 256， 而 返回 的 值 则 为 
255。 读 者 一 定 会 问 ， 为 什么 不 直接 就 读 回 0x100， 而 要 搞 得 这 么 复杂 呢 ? 当然 ， 前 面 痢 些 为 1 的 位 是 
ASM. SSL, MBCBGEHSSDEAS 1 表示 着 区 间 的 大 小 以 外 ， 所 有 为 1 的 位 (包括 位 置 最 低 的 1) 都 
是 可 以 (在 建立 地 址 映射 时 ) 加 以 设置 的 ， 而 所 有 为 0 的 位 则 不 能 设置 。 在 这 个 例子 中 ， 号 表示 该 区 间 在 
映射 后 的 起 始 地 址 必须 是 64KB 边界 上 的 第 “个 或 第 二 个 256 字 节 。 我 们 在 这 里 为 了 说 明 问题 而 举 了 
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一 个 比较 特殊 的 例子 ,多 数 情况 下 从 位 置 最 低 的 1 开始 往 上 所 有 各 位 都 是 1, 表示 区 间 的 起 点 是 与 区 间 
的 大 小 “自然 ”对 齐 的 。 

读 取 了 区 间 大 小 以 后 ， 还 要 把 起 始 地 址 写 思 这 个 长 字 (561 行 )， 恢 复 其 原状 。 

然后 ， 把 从 寄存 器 读 出 的 内 容 换算 成 区 间 的 起 点 和 终点 ， 记 录 在 相应 的 resource 结构 中 。 

对 “可 预 取 ”这 个 概念 可 能 还 需要 一 些 说 明 。 如 上 所 述 ， 一 个 区 间 之 为 “存储 器 区 间 ” 或 “IO 区 
间 ” 取 决 于 该 区 间 的 地 址 是 在 “存储 器 地 址 空间 ”或 “IO 地 址 空间 ”， 实质 上 取决 于 CPU 通过 哪 一 类 
的 指令 访问 这 个 区 间 ， 而 与 在 具体 地 址 上 的 是 存储 单元 或 寄存 器 无 关 。 事 实 上 ， 有 些 CPU 根本 就 没有 
VO 指令 ， 因 而 就 没有 IO 地 址 空间 ， 所 有 的 寄存 器 都 在 存储 器 地 址 空间 中 。 另 一 方面 ， 以 前 也 讲 过 ， 
1386 Ab ge VO 地 址 空间 ， 但 是 其 IO 地 址 空间 比较 小 (16 位 )， 因 而 比较 拥挤 。 再 说 通过 VO 指令 
访问 就 意味 着 每 次 访问 时 都 得 调用 一 个 汇编 语言 子 程序 (因为 C 语言 中 没有 相应 的 语言 成 分 )， 而 不 像 
通过 访 内 指令 时 那样 可 以 把 寄存 器 看 作 一 个 变量 ， 因 而 不 那么 方便 ， 效 率 也 要 低 一 些 。 所 以 ， 在 PCI 
设备 中 一 般 都 倾向 于 将 寄存 器 映射 到 存储 器 地 址 空间 ， 而 避免 使 用 VO 地 址 空间 。 然 而 ， 即 使 都 使 用 
仓储 髓 地 址 空间 ， 寄 存 器 与 真正 的 存储 单元 还 是 有 着 本 质 的 不 同 ， 主 费 在 于 从 一 个 单元 读 出 时 是 否 可 
能 改变 其 内 容 。 对 十 普通 的 存储 单元 ， 读 操作 是 不 会 改变 其 内 容 的 ， 所 以 反复 从 同一 单元 读 出 多 次 也 
没有 关系 ,每 次 读 出 的 内 容 都 - - 样 。 而 寄存 器 就 不 同 了 。 首先 , 有 些 寄存 器 可 能 代表 着 一 个 FIFO 队列 ， 
从 中 读 出 时 每 次 都 是 读 出 FIFO 中 最 前 面 的 内 容 ， 因 而 每 次 都 可 能 不 同 。 其 次 , 很 多 状态 寄存 器 中 的 状 
态 位 在 读 出 时 就 清 成 了 0。 不 过 , 二 者 间 的 这 种 区 别 对 十 个 草 的 读 操作 ， 即 每 次 只 从 一 -个 单元 的 读 出 并 
无 影响 。 但 是 ， 对 于 连续 的 、 成 块 的 读 出 就 有 影响 了 。 为 了 提高 成 块 读 出 的 效率 ，PCI 总 线 对 成 块 的 
读 出 加 以 流水 线 化 ， 在 应 CPU 的 要 求 读 出 单元 N 后 预先 就 把 N+1 也 读 入 流水 线 ， 这 样 当 CPU 真 的 接 
着 要 求 读 出 单元 N+] 时 就 不 用 等 待 了 ， 这 就 是 所 谓 “ 预 取 ” 显然 ， 据 取 是 建立 在 对 CPU 意图 的 猜测 
上 的 ， 这 种 猜测 有 可 能 ( 道 常 ) 成 真 ， 也 有 可 能 失败 。 如 果 猜 测 失败 了 ， 预 取 的 内 容 就 丢掉 了 ， 对 于 存储 
单元 这 并 无 害处 ， 下 次 需要 时 再 读 就 是 了 。 可 是 对 寄存 器 就 不 同 了 ， 下 次 再 读 时 很 可 能 其 内 容 已 经 因 
为 预 取 而 变化 了 。 所 以 ， 一 - 般 而 言 ， 映 射 在 存储 器 地 址 空间 中 的 寄存 器 是 不 可 预 取 的 。 

我 们 在 这 里 不 关心 64 位 PCI 总 线 设备 , 即 采 用 64 位 地 址 的 设备 ,所 以 跳 过 对 此 的 检查 和 处 理 (575~ 
596 行 )。 

除 常 规 的 6 个 存储 区 间 外 ， 设 备 上 还 可 能 提供 一 个 扩充 ROM 区 间 ， 用 于 这 个 区 间 的 长 字 与 前 面 
这 6 个 不 连 在 一 起 ， 所 以 要 放 在 for 循环 外 面 单独 处 理 。 不 过 ， 所 作 的 处 理 与 前 面 并 盛大 的 不 同 ， 我 们 
把 下 面 这 段 代码 留 给 读者 。 


[pci_init( ) > pcibios init( ) > pci scan bus ( ) > pci_do_scan_bus( ) > pci scan, slot( ) 
> pci scan device( ) > pci setup device( ) > pci read. bases( )] 


598 if (rom { 

599 dev-^rom base reg = rom; 

600 res = &dev—>resource[PCI ROM RESOURCE]: 

601 pci read config dword(dev, rom, &1); 

602 pci write config dword(dev, rom, "PCI ROM ADDRESS ENABLE); 
603 pci read config dword(dev, rom, &sz); 

604 pci write config dword(dev, rom, 1); 

605 if (1 = Oxffffffff) 

606 1 = 0; 
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607 if (sz && sz !- Oxffffffff) | 

608 res->flags = (1 & PC1 ROM ADDRESS, ENABLE) | 

609 IORESOURCE MEM | IORESOURCE PREFETCH | 
IORESOURCE READONLY | IORESOURCE CACHEABLE; 

610 res-»start = 1 & PCT ROM ADDRESS MASK; 

611 sz = pci size(sz, PCT ROM ADDRESS, MASK) ; 

612 res->end = res->start + (unsigned long) sz; 

613 } 

614 res-»name = dev~>name: 

615 } 

616  ) 


对 ROM 区 间 地 址 的 解读 与 RAM 区 间 的 有 所 不 同 ， 其 最 低 的 11 位 都 是 保留 的 ， 其 中 bit0 为 
PCI ROM_ADDRESS_ENABLE， 为 1 时 表示 区 间 有 效 。 

回 到 pci_setup_device( ) 的 代码 中 (864 行 )， 还 要 把 设备 的 子 系统 号 和 子 系统 厂商 叶 也 读 进来 。 

这 里 对 “PCI-PCI 桥 "的 处 理 (869 一 872 行 ) 就 比较 简单 了 , 许多 字段 , 如 中 有 断 请 求 等 等 , 对 十 “PCI-PCI 
桥 ” 都 是 无 意义 的 。 所 以 对 此 只 需要 调用 pci_read_bases( ) 就 可 以 了 。 同 时 ,“PCLPCI BE" En UG E 
存储 区 间 数 量 也 少 ， 最 多 只 能 有 两 个 。 当 然 ， 实 际 上 对 “PCI-PCI 桥 ” 的 处 理 更 为 复杂 ， 因 为 还 得 进 - 
步 扫描 次 层 PCI 总 线 ， 不 过 这 是 以 后 的 事 。 ; 

至 此 ， 对 pci_scan_device( ) 的 调用 已 经 完成 ， 回 到 了 pci_scan_slot( ) 中 ， 返 回 的 是 一 个 pei. dev 结 
构 指 针 ， 如 果 该 指针 为 0 则 表示 PCI 总 线 上 没有 所 指定 的 逻 竹 设 备 。 接 着 的 pci_name_device( ) 将 从 设 
备 中 读 入 的 厂商 编号 和 设备 编号 转换 成 字符 串 。 内 核 中 为 此 设置 了 一 个 小 小 的 数据 库 ( 转 换 表 )， 其 内 容 
见 drivers/pcijpciids， 这 里 略 举 其 中 数 行 让 读者 有 个 印象 : 


1469 10b7 3Com Corporation 

1470 0001 3c985 1000BaseSX 

1471 3390 Token Link Velocity 

1472 3590 3c359 TokenLink Velocity XL 


意思 是 厂商 编号 Ox10b7 代表 着 3Com, 而 若 设 备 编号 为 Ox0001 则 表示 这 是 该 公司 生产 的 3c985 网 
络 卡 。 这 个 文件 中 包括 了 几乎 所 有 知名 的 厂商 和 它们 的 产品 。 

接着 , 把 pci_scan_device( ) 返 回 的 pei, dev 数据 结构 挂 入 总 的 队列 pei. devices 以 及 该 设备 所 在 总 线 
的 队列 。 前 面 讲 过 ， 这 个 队列 的 头 在 代表 着 这 个 总 线 的 pci_bus 数据 结构 中 。 

本 来 ， 从 一 个 逻辑 设备 读 出 头 部 信息 并 为 之 建立 相应 的 数据 结构 以 后 ， 对 这 个 设备 的 枚 举 就 完成 
T. 如 前 所 述 ， 这 些 信 息 是 固化 在 芯片 中 的 。 可 是 ， 有 些 厂 商 在 并 始 出 售 它们 的 某 些 产品 以 后 却 发 现 
固化 在 里 而 的 信息 有 错 ， 因 而 和 需要 在读 出 这 些 信息 以 后 通过 软件 于 段 加 以 修正 。 有 的 修正 需 归 在 从 设 
备 读 出 头 部 信息 后 进行 ， 有 的 则 需要 在 设置 了 各 个 区 间 的 总 线 地 址 以 后 进行 。 调 厂商 ， 则 在 出 售 产 品 
时 随同 提供 -- 段 相应 的 程序 。 这 样 的 情况 不 是 - TSI, IAS. AUS, Linux 内 核 中 设计 了 
一 种 统 -的 机 制 来 进行 这 样 的 修正 。 首 先是 个 数据 结构 (类 型 )pci_fixup， 定 义 本 include/linux/pei.h: 


660 /* 
661 * The world is not perfect and supplies us with broken PCI devices. 
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662 * For at least a part of these bugs we need a work-around, so both 
663 * generic (drivers/pci/quirks.c) and per-architecture code can define 
664 * fixup hooks to be called for particular buggy devices. 

665 */ 

666 

667 struct pci fixup { 

668 int pass; 

669 ul6 vendor, device; /* You can use PCI ANY ID here of course */ 
670 void (*hook) (struct pci dev *dev); 

671 }; 


这 个 数据 结构 表示 : 对 于 由 厂商 vendor 提供 的 设备 device， 需 要 在 什么 时 候 〈《pass) 执行 遂 过 函 
数 指针 hook 提供 的 函数 。 内 核 中 有 两 个 pci_fixup ARH, BET NOM) 商 和 产品 的 修正 手段 ， 
分 别 定 义 寺 arch/i386/kernel/pci-pc.c 和 drivers/pci/quirks.c 中 。 为 篇 幅 的 原因 ， 我 们 从 这 两 个 结构 数组 
中 删 去 了 许多 元 素 ， 只 留 下 几 个 ， 让 读者 有 个 印象 。 


927 struct pci fixup pcibios fixups[ ] = { 


928 ( PCI FIXUP HEADER, PCI VENDOR ID INTEL, 
PCI DEVICE ID INTEL 82451NX, pci fixup i450nx }, 
929 { PCI FIXUP HEADER, PCI VENDOR ID INTEL, 


PCI DEVICE ID INTEL 824546X, pci fixup i450gx }, 


"o 8 8 «© 8 a 


938 { PCI FIXUP HEADER, PCI VENDOR ID SI, 
PCI DEVICE ID SI 5598, pci fixup latency }, 
039 {01 
940}; 
250 /* 
251 * The main table of quirks. 
252 */ 
253 
254 static struct pci fixup pci fixupsi | initdata = { 
255 { PCI FIXUP FINAL, PCI VENDOR ID INTEL, 


PCI DEVICE ID INTEL 82441, quirk passive release }, 





283 ( PCI FIXUP HEADER, PCT VENDOR ID AL, 

PCI DEVICE TD AL M7101, quirk ali7101 acpi }, 
284 ( PCI FTXUP HEADER, PCI VENDOR ID INTEL, 

PCI DEVICE ID INTEL 82371SB 2, quirk piix3 usb ], 
285 ( PCI FIXUP HEADER, PCI VENDOR ID INTEL, 

PCI DEVICE 1D INTEL 82371AB 2, quirk piix3 usb }, 
286 {0} 
287 he 
288 


例如 ，928 行 说 明 ;， 对 丁 Intel 的 82451NX 芯片 (是 “宿主 一 PCI 桥 ”) 需 归 在 读 出 了 头 部 信息 以 后 
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调用 pci_fixup_i450nx( ) 进 行 修正 (PCI_FIXUP_HEADER 在 include/linux/pcih 中 定义 为 1， 
PCI_FIXUP_FINAL 则 为 2)。 具 体 的 修 下 是 由 pei, fixup. device( ) 完 成 的 ， 其 代码 在 drivers/pci/quirks.c 
中 ， 注 意 这 里 的 调用 参数 pass 为 PCL FTXUP_HEADER， 表 示 是 读 出 头 部 信息 以 后 的 修正 。 


[pci init( ) > pcibios init( ) > pci scan. bus ( ) > pci_do_scan_bus( ) > pci_scan_slot( ) > pci_fixup_device( )] 


305 void pci fixup device (int pass, struct pci dev *dev) 


306 { 

307 pci do fixups(dev, pass, pcibios fixups); 
308 pci do fixups(dev, pass, pei fixups); 
300  ] 


这 个 函数 对 上 述 两 个 数组 分 别 调用 pci_do_fixups( )， 其 代码 在 同 -一 文件 (quirks.c) 中 : 


[pei_init( ) > pcibios_init( ) > pci scan. bus ( ) > pci_do_scan_bus( ) > pci_scan_slot( ) > pci_fixup_device( ) 
> pci_do_fixups()] 


290 static void pci do fixups(struct pci dev *dev, int pass, struct pci fixup *f) 
291 | 


292 while (f->pass) { 

293 if (f->pass == pass && 

294 (f->vendor == dev->vendor || f->vendor == (ul6) PCI ANY 1D) && 
295 (f->device == dev->device !| f->device == 《ul6) PCI ANY 1D)){ 
296 #ifdef DEBUG 

297 printk( PCI: Calling quirk %p for %s\n”, f->hook, dev—>slot name): 
298 #endif 

299 f-^hook (dev) ; 

300 } 

301 Tots 

302 } 

303 ) 


注意 293 行 的 条 件 , 修正 函数 仅 在 指定 的 pass 中 才 会 执行 。 全 于 具体 的 修正 函数 , 我 们 就 不 看 了 。 

器 到 pci_do_scan_bus( ) 的 代码 中 ,完成 了 对 pei scan slot fj EXP BH. 对 条 PCI 总 线 的 扫描 
与 枚 举 忆 则 上 已 经 完成 了 。 但 是 , 对 得 到 的 信息 也 可 能 需要 作 一 些 调整 和 修正 .函数 pcibios_fixup_bus() 
的 代码 在 arch/i386/kernel/pci-pc.c FP: 


[pci init( ) > pcibios init( ) > pci scan bus ( ) > pci_do_scan_bus( ) > pcibios. fixup_bus( )] 


942 /* 
943 * Called after each bus is probed, but before its children 
944 * are examined. 


945 */ 

946 

947 void | init pcibios fixup bus (struct pci bus *b) 
948 { 
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949 pcibios fixup ghosts (b); 
950 pci read bridge bases(b); 
951 |] 


为 什么 要 有 这 种 调整 和 修正 呢 ? 原来 ， 不 光 是 PCI 芯片 中 的 信息 会 有 错误 ， 有 些 系统 母 板 的 设计 


头 部 信息 ， 从 而 在 枚 举 的 过 程 中 造成 重复 枚 举 ， 在 所 形成 的 PCI 树 中 引入 了 “ 约 影 "。 所 以 ， 要 通过 
pcibios, fixup. ghosts( ) 进 行 一 次 扫描 ， 把 “幻影 ”去 掉 。 这 个 沙 数 的 代码 在 arch/i386/kernel/pci-pc.c H, 
我 们 在 这 里 就 不 看 了 。 

ek) 2% pci read bridge bases( ) 的 代码 企 drivers/pci/pci.c 中 : 


[pci init( ) > pcibios init( ) > pci scan bus ( ) > pci_do_scan_bus( ) pcibios fixup bus( ) 
> pci read bridge bases( )] 


618 void init pci read bridge bases (struct pci bus *child) 


619 { 

620 struct pci dev *dev = child-^self; 

621 u8 io base lo, io limit lo; 

622 ul6 mem base ]o, mem limit lo, io base hi, io limit hi; 

623 u32 mem base hi, mem limit hi; 

624 unsigned long base, limit; 

625 struct resource *res; 

626 int i; 

627 

628 if (Idev) /* It's a host bus, nothing to read */ 

629 return; 

630 

631 for (i=0; i43; i++) 

632 child-^resource[i] = &dev->resource[PCI BRIDGE RESOURCES+i] ; 
633 

634 res = child->resource [0] ; 

635 pci read config byte(dev, PCI IO BASE, &io base lo); 

636 pci read config byte(dev, PCI IO LIMIT, &io limit lo); 

637 pci read config word(dev, PCI IO BASE UPPERI6, &io base hi); 

638 pci read config word(dev, PCI IO LIMIT UPPERI6, &io limit hi); 
639 base = ((io base lo & PCI IO RANGE MASK) << 8) | (io base hi << 16); 
640 limit = ((io limit lo & PCT. TO RANGE MASK) << 8) | (io limit hi << 16); 
641 if (base && base <= limit) { 

642 res-^flags = (io base lo & PCI TO RANGE TYPE MASK) | IORESOURCE IQ; 
643 res—>start = base; 

644 res->end = limit + Oxfff; 

645 res—>name = child->name; 

646 } else { 

647 /* 

648 * Ugh. We don t know enough about this bridge. Just assume 
649 * that it's entirely transparent. 
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650 */ 

651 printk("Unknown bridge resource %d: assuming transparent\n”, 0); 
652 child—resource[0] = child->parent->resource[0]: 

653 } 

654 

655 res = child->resource[1]; 

656 pci read config word(dev, PCT MEMORY BASE, &mem base lo); 

657 pci read config word(dev, PCT MEMORY LIMIT, &mem limit lo); 

658 base = (mem base lo & PCI MEMORY RANGE MASK) << 16; 

659 limit = (mem limit lo & PCI MEMORY RANGE MASK) << 16; 

660 if (base && base <= limit) | 

661 res->flags - (mem base lo & PCI MEMORY RANGE TYPE MASK) | IORESOURCE MEM: 
662 res-2start = base; 

663 res-»end = limit + Oxfffff; 

664 , res: >name = child->name: 

665 } else | 

666 /* See comment above. Same thing */ 

667 printk("Unknown bridge resource Xd: assuming transparent\n”, 1); 
668 child->resource[1] = child->parent->resource[1]; 

669 } 

670 

671 res = child resource[2]; 

672 pci read config word(dev, PCl PREF MEMORY BASE, &mem base lo); 

673 pci read config word(dev, PCI PREF MEMORY LIMIT, &mem limit 1o); 
674 pci read config dword(dev, PCL PREF BASE UPPER32, &mem base hi); 
675 pci read config dword(dev, PCI PREF LIMIT UPPER32, &mem limit hi); 
676 base = (mem base lo & PCI MEMORY RANGE MASK) << 16; 

677 limit = (mem limit 1o & PCT MEMORY RANGE MASK) << 16; 

678 8if BITS PER LONG == 64 

679 base |= ((long) mem base hi) << 32; 

680 limit |= ((long) mem limit hi) << 32; 

681 Helse 

682 if (mem base hi || mem limit hi) { 

683 printk(KERN ERR 


"PCI: Unable to handle 64-bit address space for %s\n , child->name) ; 
684 return; 


685 } 

686 Rendif 

687 if (base && base <= limit) { 

688 res-»flags = (mem base lo & PCI MEMORY RANGE TYPE MASK) 
IORESOURCE. MEM | IORESOURCE PREFETCI; 

689 res-?start = base; 

690 res >end = limit + Oxfffff; 

691 res-»name = child->name; 

692 | else | 

693 /* See comments above */ 

694 printk("Unknown bridge resource %d: assuming transparent\n”, 2); 

695 child resource[2] = child->parent—>resource[2] ; 
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696 } 
697 } 


PCI 桥 的 配置 寄存 器 组 与 一 般 PCI 设备 的 不 同 。 如 前 所 述 ， 一 般 PCI 设备 可 以 有 6 个 地 址 区 间 ， 
外 加 个 ROM 区 间 ， 代 表 着 设备 上 实际 存在 的 存储 器 或 寄存 器 区 间 ; 而 PCI 桥 ， 则 本 身 并 不 一 定 有 
存储 器 或 寄存 器 区 间 ， 但 是 却 有 三 个 用 于 地 址 过 滤 的 区 间 。 每 个 地 址 过 滤 区 间 决 定 了 个 地 址 窗口 ， 
从 靠近 CPU “ 侧 发 出 的 地 址 ， 如 果 落 在 PCI 桥 的 某 个 窗口 之 内 ， 就 可 以 穿 过 PCI 桥 而 到 达 其 所 连接 的 
总 线 上 。 反 过 来 ， 从 总 线 一 侧 由 PCI 设备 发 出 的 地 址 (如 果 有 的 话 )， 则 要 在 相应 PCI 桥 的 所 有 窗口 之 
外 才能 穿 过 PCL 桥 到 达 靠 近 CPU WM. Ah, PCI 桥 的 命令 寄存 器 中 还 有 “memory access enable" Xi 

“T/O access enable” 册 个 探 制 位 ， 党 这 两 个 控制 位 为 0 时 ， 这 些 窗口 就 全 都 关上 了 (两 个 方向 都 关上 )。 
在 林 完 成 对 PCI 总 线 的 初始 化 之 前 ， 还 没有 为 PCI 设备 上 的 各 个 区 间 分 屿 合适 的 总 线 地 址 时 ， 不 是 因 
为 这 两 个 控制 位 为 0， 才 不 会 对 CPU 一 侧 造 成 干扰 。 

显然 ， 每 个 窗口 的 大 小 和 位 置 应 该 是 总 线 上 各 个 相应 区 间 的 总 和 ， 而 总 线 上 的 各 个 区 间 则 应 该 基 
A EAE ARABS. A, :个 窗口 实际 上 也 是 一 个 区 间 ， 所 以 也 用 :个 resource 数据 结构 
表示。 不 过 ， 说 是 各 个 相应 区 间 的 总 和 ， 实 际 上 窗口 一 定 是 按 某 种 边界 对 齐 的 ， 其 人 小 可 能 会 大 于 实 
际 的 需要 (从 而 造成 少量 浪费 )。 

第 一 个 区 间 是 VO HEH BI. PCI 桥 上 有 两 个 8 位 寄存 器 ， 妈 PCI IO BASE 和 PCI_IO_LIMIT,， 
用 来 确定 具体 窗口 的 起 点 和 终点 。 其 中 高 4 位 就 是 16 位 VO 地 址 中 的 最 高 4 位 , 低 4 位 则 沿 定 为 0( 对 
16 位 IO 地 址 而 言 ， 见 下 )。 窗 山 的 大 小 为 4KB 的 倍数 ， 并 与 4KB 边界 对 齐 。 其 起 点 为 PCIL IO BASE 
的 高 4 位 后 面 添 上 12 位 0, 终 点 则 为 PCL_IO_LIMIT 的 高 4 位 后 而 添上 12 位 1。 例 如 ,此 是 PCI IO BASE 
的 高 4 位 为 6 而 PCI_IO_LIMIT 的 高 4 位 为 7， 就 表示 窗口 的 范 困 为 0x6000 至 Ox7fff. PCI 总 线 并 不 是 
专 为 i386 处 埋 器 设计 的 ， 有 些 处 理 器 可 能 使 用 32 位 LO 地 址 空间 。 所 以 ， 如 果 有 具体 的 PCI 设备 支持 
32 位 VO 地 址 ， 则 进步 通过 PCIIO_BASE_UPPER16 利 PCI IO_LIMIT_UPPER16 两 个 16 A7 8 7738 
提供 窗口 起 点 和 终点 的 高 16 位 ， 并 且 使 PCTL IO BASE 和 PCI IO LIMIT 中 的 低 4 位 问 冠 为 1。 

第 二 个 区 间 忠 存储 髓 地 址 的 窗 贞 。 寄 在 嚣 PCL MEMORY_BASE 和 PCI. MEMORY LIMIT 的 构造 
与 作用 跟 上 述 PCI IO BASE 和 PCI IO LIMIT 相似 ， 只 不 过 是 16 位 寄存 器 ， 除 最 低 4 位 为 0 以 外 ， 
Hm 12 位 为 32 位 存储 器 地 址 中 的 最 高 12 位 。 窗 口 的 大 小 则 为 IMB 的 倍数 ， 并 与 1MB 边界 对 齐 。 例 
如 ， 要 是 PCI_MEMORY_BASE 的 高 12 位 为 Oxa81 ii PCL MEMORY LIMIT 的 高 12 位 也 是 0xa81]， 
就 表示 窗口 的 范围 为 0xa8100000-—0xa81fffff, FE 1MB «3 4 [X [8] 3: 38: RH] 3 M E E RH E Z8 Ta] HC WO 
寄存 峰 。 

第 三 个 区 间 是 “可 预 取 ” 存储 器 地 址 的 窗 11。 寡 在 内 PCL PREF MEMORY BASE 和 
PCI PREF MEMORY LIMIT 的 构造 与 作用 跟 PCI MEMORY BASE 和 PCI MEMORY LIMIT 相似 ， 
但 是 其 最 低 4 位 并 不 总 是 0， 而 是 以 0 表示 32 位 地 址 ， 以 1 表示 64 位 地 址 。 对 于 64 位 地 址 ，PCI 桥 
上 还 有 PCI. PREF BASE, UPPER32 fil PCI PREF LIMIT. UPPER22 两 个 32 位 寡 存 器 用 于 地 址 的 高 32 
位 。 

PIEJ pci_do_scan_bus( ) 的 代码 中 ， 现 仁 一 条 PCT 总 线 上 的 所 有 设备 都 已 经 枚 举 完 毕 了 。 人 是 ， 其 
中 有 些 设备 可 能 是 “PCLPCIE 桥 ?， 对 这 些 设备 还 得 “顺藤摸瓜 ”进步 扫描 相应 的 次 层 PCI 总 线 。 对 
此 ， 代 码 中 分 两 赵 ( 见 996 行 ) 扫 描 当 前 PCI 总 线 的 队列 devices， 如 果 发 现 一 个 设备 的 类 型 为 “PCLPCI 
桥 ” 或 “PCI-CardBus 桥 ”(999 行 )， 就 对 其 调用 pci scan bridge( )， 这 个 函数 的 代码 在 drivers/pci/pci.c 
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中 。 那 么 ， 为 什么 要 分 两 趋 扫 描 呢 ?这 是 因为 在 两 趋 打 措 中 针对 的 情况 是 不 同 的 ， 第 - : 趟 扫描 是 针对 
已 经 由 BIOS 进行 过 处 理 的 PCI 桥 ， 第 一 趟 扫描 则 是 针对 未 经 BIOS 处 理 的 PCI 桥 。 


[pci_init( ) > pcibios init( ) > pci. scan, bus ( ) > pci_do_scan_bus( ) > pci scan bridge( )] 


146 /* 

747 * If it's a bridge, configure it and scan the bus behind it. 

748 * For CardBus bridges, we don't scan behind as the devices will 
749 * be handled by the bridge driver itself. 

150 * 

751 * We need to process bridges in two passes ~~ first we scan those 
752 * already configured by the BIOS and after we are done with all of 
753 * them, we proceed to assigning numbers to the remaining buses in 
154 * order to avoid overlaps between old and new bus numbers. 

155 */ 


156 static int . init pci scan bridge (struct pci bus *bus, 
struct pci dev * dev, int max, int pass) 


152 d 

758 unsigned int buses; 

159 unsigned short cr; 

160 struct pci bus *child; 

761 int is cardbus = (dev-^hdr type == PCI HEADER TYPE CARDBUS):; 

762 

763 pci read config dword(dev, PCI PRIMARY BUS, &buses) ; 

764 DBG('Scanning behind PCI bridge %s, config %06x, pass %d\n", 
dev-^slot name, buses & Oxffffff, pass); 

765 if ((buses & Oxffff00) && !pcibios assign all busses( )) | 

766 /* 

167 * Bus already configured by firmware, process it in the first 

768 * pass and just note the configuration. 

769 */ 

770 if (pass) 

771 return max; 

772 child = pci add new bus (bus, dev, 0); 

773 child->primary = buses & OxFF; 

774 child->secondary = (buses >> 8) & OxFT; 

775 child-»subordinate = (buses >> 16) & OxI'F: 

776 child->number = child->secondary: 

UI if (tis cardbus) { 

118 unsigned int cmax = pci do scan bus(child); 

779 if (cmax > max) max = cmax; 

780 } else { 

181 unsigned int cmax ~ child->subordinate; 

782 if (cmax > max) max = cmax; 

783 } 

784 } else { 

785 /* 
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* We need to assign a number to this bus which we always 

* do in the second pass. We also keep all address decoders 
* on the bridge disabled during scanning. FIXME: Why? 

*/ 

if (!pass) 

return max; 

pci read config word(dev, PCI COMMAND, &cr); 

pci write config word(dev, PCI COMMAND, 0x0000): 
pci write config word(dev, PCI STATUS, Oxffff); 


child = pci add new bus(bus, dev, ++max): 


buses = (buses & Oxff000000) 
| ((unsigned int) (child? primary) << Q) 
| ((unsigned int) (child—->secondary) << B) 
| ((unsigned int) (child->subordinate) << 16); 
/* 


* We need to blast all three values with a single write. 
*/ 
pci write config dword(dev, PCI PRIMARY BUS, buses); 

if (!is cardbus) | 


/* Now we can scan all subordinate buses... */ 
max = pci do scan bus(child); 

| else { 
/* 


* For CardBus bridges, we leave 4 bus numbers 
* as cards with a PCI-to-PCI bridge can be 

* inserted later. 

*/ 


max += 3; 


/* 

* Set the subordinate bus number to its real value. 
*/ 

child->subordinate = max; 

pci write config byte(dev, PCI SUBORDINATE BUS, max); 
pci write config word(dev, PCI COMMAND, cr); 


sprintf (child->name, 


(is cardbus ? "PCI CardBus #%02x” : "PCI Bus #%02x”), child->number) : 
return max; 


首先 从 PCI 桥 的 配置 寄存 器 组 中 读 出 含有 “ 主 总 线 号 ”“ 次 总 线 写 ”等 字段 的 长 字 ， 其 中 最 低 的 


字 节 为 主 总 线 号 ， 在 此 之 上 的 两 个 字 节 则 依次 为 次 总 线 号 和 子 树 中 的 最 大 总 线 号 。 目 前 ， 

pcibios assign all busses( ) 是 个 空 操 作 , 固定 地 定义 为 0, 所 以 只 要 两 个 较 高 字 节 不 为 全 0 就 能 满足 765 
行 的 条 件 。 这 两 个 字 节 不 为 全 0 说 明 在 此 之 前 这 条 总 线 已 经 枚 举 过 一 次 ， 所 以 已 经 分 配 了 次 总 线 号 或 
最 大 “ 子 总 线 号 ”一 般 而 言 这 发 生 于 系统 加 电 时 由 PCI BIOS 进行 的 扫描 枚 举 。 对 于 这 样 的 情况 ,证 
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ili 772—783 行 的 代码 只 在 第 -- 趟 扫描 时 执行 。 
既然 是 发 现 了 一 条 新 的 PCI 总 线 ， 当 然 就 要 为 之 建立 一 个 pci bus 数据 结构 。 当 然 ，BIOS 在 扫描 
中 必定 也 建立 了 某 种 形式 的 数据 结构 ， 记 录 了 相应 的 信息 ， 但 是 在 这 里 内 核 要 撒 开 BIOS, MMOL HE I. 
其 自己 的 数据 结构 。 函 数 pci_add_new_bus( ) 的 代码 在 drivers/pci/pci.c 中 : 





[pci_init( ) > pcibios, init( ) > pci scan. bus ( ) > pci. do. scan, bus( ) > pci scan, bridge( ) 
> pci add new, bus( )] 


112 static struct pci bus * init pci add new bus(struct pci bus *parent, 
struct pci dev *dev, int busnr) 


3. 4 

114 struct pci bus *child; 

715 int i; 

716 

717 /* 

718 * Allocate a new bus, and inherit stuff from the parent.. 
719 */ 

720 child = pci alloc bus( ); 

721 

722 list add tail (&child->node, &parent->children) ; 
723 child->self = dev; 

724 dev—>subordinate = child; 

725 child->parent = parent; 

726 child->ops = parent—>ops; 

121 child-?sysdata = parent—>sysdata; 

128 

729 /* 

130 * Set up the primary, secondary and subordinate 
731 * bus numbers. 

732 */ 

733 child->number = child->secondary = busnr; 

734 child-^primary = parent~>secondary; 

735 child->subordinate = Oxff; 

736 

737 /* Set up default resource pointers.. */ 

738 for (4-0: i < 4; i++) 

739 child->resource[i] = &dev—>resource[PCI_BRIDGE_RESOURCES+i] ; 
740 

141 return child; 

142 } 


我 们 把 这 段 代 码 留 给 读者 。 

回 和 到 上 面 pci_scan_bridge( ) 的 代码 中 ， 在 进步 设置 了 新 的 pci_bus 数据 结构 以 后 ， 就 对 这 条 次 层 
PCI 总 线 调用 pci do scan bus( ) 进 行 扫描 枚 举 。 显然 , 这 是 对 pci_do_scan_bus( ) 的 递归 调用 , 因为 CPU 
此 时 正 是 在 这 个 函数 的 下 面 执行 。 可 见 ， 这 是 在 对 系统 的 PCI 总 线 结构 作 深 度 优 先 的 搜索 。 

再 看 当 765 行 的 条 件 不 能 满足 , 即 首次 扫 找 枚 举 一 条 次 层 PCI 总 线 时 的 操作 , 那 就 是 代码 中 的 785 一 
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821 行 。 这 一 段 代 码 仅 在 第 “ 趟 打 描 时 执行 。 对 于 未 经 BIOS 处 理 的 PCI 桥 ， ABM HM REF 
知道 总 线 写 已 经 用 到 了 多 大 ， 这 样 才 可 以 在 第 二 趟 扫描 中 在 此 基础 上 继续 分 配 总 线 号 ， 上 于 将 分 配 的 编 
与 设置 进 该 “PCI-PCI 桥 ”的 配置 寄存 器 组 。 这 里 先 读 入 命令 寄存 器 的 内 容 并 保存 起 来 ， 然 后 往 命 令 寡 
存 器 写 入 全 0， 往 状态 寄存 器 写 入 全 1( :者 均 为 16 位 寄存 器 )。 接 着 通过 pci_add_new_bus( ) 为 其 建立 
一 个 pci bus 数据 结构 ， 注 意 这 里 调用 pci_add_new_bus( ) 时 的 第 三 个 参数 max 为 次 层 总 线 的 编号 ， 这 
束 是 当前 的 最 大 总 线 号 ， 并 且 先 已 加 1。 然后 ，797 行 拼 纪 起 包含 着 此 总 线 写 的 长 字 ， 并 三 804 行将 其 
写 入 配置 寄存 器 组 。 同 样 地 ， 对 于 “PCLPCI BE" 要 递归 调用 pci_do_scan_bus( )， 这 个 函数 返回 已 经 在 
该 了 树 中 使 用 的 最 大 总 线 号 ,820 行将 其 写 入 配置 寄存 器 组 中 的 PCI SUBORDINATE BUS 字 节 ,最 后 ， 
821 行 恢复 命令 寄存 器 原来 的 内 容 。 

IF] ll pcibios_init( ) 的 代码 中 (987 行 )。 对 0 号 PCI 总 线 的 (递归 的 ) 扫 描 校 举 本 身 已 经 完成 了 ， 系 统 
已 经 部 分 地 (在 大 多 数 情 况 下 实际 上 是 全 部 ) 知 道 了 自己 的 “家 底 ” 下面 就 可 以 统筹 地 进行 对 设备 的 设 
前 了 。 这 种 设置 包括 两 方面 的 内 容 ， 其 一 是 设备 的 中 断 请 求 线 与 系统 中 的 中 断 控制 器 之 间 的 连接 ， 共 
二 是 设备 上 各 个 区 间 在 总 线 上 的 地 址 映射 。 如 前 所 述 ， 这 就 是 从 前 要 通过 哎 线 或 小 开关 设置 的 山 人 内 
容 。 不 过 ， 实 际 上 很 可 能 BIOS 已 经 在 系统 加 电 自 检 的 阶段 已 经 进行 了 设置 ， 所 以 往往 只 是 加 以 确认 
WE. A 方面， 系统 中 除 0 号 总 线 之 外 还 可 能 有 其 他 主 总 线 存 在 ， 也 需要 加 以 扫描 ， 但 是 下 面 读者 
就 会 看 到 : 出 于 效率 的 考虑 ， 这 种 扫描 要 推迟 到 处 理 中 断 请 求 线 时 才 进 行 。 

前 面 讲 过 , 在 PCI 总 线 上 有 INTA-INTD 共 4 条 中 断 请 求 线 。 凡 是 能 产生 中 新 请 求 的 PCI 设备 , 其 
中 断 请 求 必 定 连接 在 其 中 的 一 条 上 ， 此 时 其 寄存 器 PCILINTERRUPT_PIN 的 内 容 (1 一 心 表 示 连 接 在 哪 
一 条 线 上 。 按 PCI 总 线 规格 书 的 规定 , 凡是 单 功能 PCI 模块 (接口 十) 的 中 断 请 求 都 应 该 连接 在 INTA E, 
多 功能 模块 (多 个 逻辑 设备 共存 于 间 “物理 模块 上 ) 才 可 以 在 使 用 INTA 之 余 再 使 用 其 他 的 中 断 请 求 线 。 
ABA IX INTA—INTD 4 条 中 断 请 求 线 又 怎样 连接 到 中 断 控 制 器 的 中 断 请 求 输入 线 昵 ?PCI 总 线 规格 书 
对 此 并 没有 作 硬 性 的 规定 ， 给 具体 系统 的 设计 和 实现 留 上 了 变通 的 余地 。 通 常 ， 系 统 的 中 断 控 制 器 一 
共有 16 RD WRAL. FES PCI 设备 的 中 断 请 求 线 (如 果 有 的 话 ) 就 是 要 选择 连接 钙 其 中 的 条 上 
去 。 理 想 的 情况 当然 是 每 条 中 断 请 求 输入 线 最 多 只 连接 一 个 中 断 源 ， 但 是 - 般 而 言 这 是 难以 办 到 的 ， 
实际 上 只 能 对 各 项 设备 加 以 适当 的 组 合 ， 让 若干 设备 共用 同一 条 中 断 请 求 输入 线 。 配 备 有 PCL 总 线 的 
PC 机 地 板 一 般 都 采用 一 种 可 编程 中 断 请 求 路 径 互 连 器 (router， 通 常 与 PCLISA 桥 集 成 在 同一 芯片 中 )， 
由 软件 设置 4 条 PCI 中 断 请 求 线 与 中 断 控制 器 的 中 断 请 求 输入 线 之 问 的 互 壕 ， 图 8.4 是 种 典型 设计 
的 示意 图 。 

从 图 中 可 以 看 出 ， 在 PCI 接口 卡 上 上 将 中 断 请 求 都 连接 在 INTA 上 其 实 只 有 局 限 十 具体 PCI did 
意义 ， 只 是 使 接 门 卡 的 结构 比较 划一 而 已 。 实 际 上 ，( 这 种 ) 系 统 母 板 的 设计 岂 动 将 各 种 设备 的 中 断 请 求 
分 布 到 了 路 径 互 连 器 的 各 条 输入 线 上 。 从 系统 软件 的 角度 ， 我 们 关切 的 有 两 个 方面 。 一 是 选择 、 俏 定 ， 
并 通过 路 径 互 连 器 实施 互 连 ;， 一 是 要 搞 清楚 具体 插 模 中 基体 设备 的 中 斯 请 求 到 底 连 接 到 了 中 斯 控制 器 
的 哪 “ 条 输入 线 上 , 这 样 才 能 人 确定 应 该 把 设备 的 中 断 服务 程序 “登记 ”到 哇 一 个 中 断 服务 程序 队列 中 ( 见 
第 3 章 )。 为 达到 这 个 目的 ，BIOS 通常 提供 一 个 “中 断路 径 表 ” 为 各 条 PCI 总 线 的 各 个 插 横 提供 其 4 
条 中 断 请 求 线 的 去 向 ， 就 是 在 母 板 二 连接 到 了 路 径 互 连 器 的 哪 条 输入 线 上 。 至 寺 路 径 互 连 器 的 输出 ， 
则 总 是 一 对 一 地 连接 到 中 渐 控 制 器 上 。 | 

APL, OF PCI 总 线 中 断 机 制 的 初始 化 ， 中 断路 径 表 和 路 径 互 连 器 是 两 个 关键 。 事 实 上 
pcibios_irq_init( ) 正 是 从 中 断路 径 表 升 始 的 ， 其 代码 在 arch/i386/kernel/pci-irq.c 中 。 
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中 断 控制 器 


BR 42 HERE 





PCL 至 CPU 


8.4 PCI 总 线 上 中 断 请 求 线 的 互 连 


{pcei_init( ) > pcibios_init( ) > pcibios_irq_init( )] 


516 void | init pcibios irq init (void) 


517 { 

518 DBG (“PCI: IRQ init\n”) ; 

519 pirq table = pirq find routing table( ); 

520 #ifdef CONFIG PCI BIOS 

521 if (!pirq table && (pci probe & PCI BIOS IRQ SCAN)) 
522 pirq table = pcibios get irq routing table( ); 
523 fendif 

524 if (pirq table) { 

525 pirg_peer_trick( ); 

526 pirq find router( ); 

527 if (pirq table->exclusive irqs) { 

528 int 1; 

529 for (i720; i416; i++) 

530 if (!(pirg table-»exclusive irqs & (1 << i))) 
531 pirq penaltyli] += 100; 

532 } 

533 /* If we re using the I/O APIC, avoid using the PCL IRQ routing table */ 
534 if (io_apic_assign_pci_irqs) 

535 pirq table = NULL; 

536 } 

537 | 


如 上 所 述 ，PCI 总 线 的 4 PRA SREY ERNE REA ARM Rae, BOA 
母 板 上 的 BIOS 提供 个 PCI“ 中 断 请 求 路 行 表 ”， 其 数据 结构 定义 丁 arch/i386/kernel/pci-i386.h: 
2217 3 
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struct irq routing table | 


} 


u32 signature; /* PIRQ SIGNATURE should be here */ 

ul6 version; /* PIRQ VERSION */ 

ul6 size; /* Table size in bytes */ 

u8 rtr bus, rtr devfn; /* Where the interrupt router lies */ 

ul6 exclusive irqs; /* IRQs devoted exclusively to PCL usage */ 

ul6 rir vendor, rtr device; /* Vendor and device ID of interrupt router */ 
u32 miniport data; /* Crap */ 

u8 rfu[11]; 

u8 checksum; /* Modulo 256 checksum must give zero */ 


struct irq info slots[0]; 


. attribute —((packed)); 


路 径 表 的 第 … 个 长 宁 -… 定 是 - 个 特殊 的 数值 PIRQ_SIGNATURE, 实际 上 是 4 个 特殊 的 字符 , 版 本 
号 则 必须 是 PIRQ_VERSION， 均 定义 于 arch/i386/kernel/pci-i386.h 中 。 路 径 表 的 起 点 一 定 是 与 16 字 节 
边界 对 齐 的 ， 但 并 不 固定 在 某 个 特定 的 位 置 上 ， 所 以 需 旨 扫描 寻 找 。 


22 
23 


define PIRQ SIGNATURE (CF << 0) + CP'«« 8) + CT’ << 16) + CR’ «€ 24)) 
#define PIRQ VERSION 0x0100 


这 个 irq routing table 数据 结构 其 实 只 是 中 断 请 求 路 径 表 的 头 部 , 表 的 主体 slots 是 一 个 irq_info £i 
构 数 组 ， 这 种 数据 结构 的 定义 在 arch/i386/kernel/pci-i386.h t: 


44 
45 
46 
47 
48 
49 
50 
51 
52 


struct irq info { 


} 


u8 bus, devfn; /* Bus, device and function */ 

struct { 
u8 link; /* IRQ line ID, chipset dependent, O=not routed */ 
ul6 bitmap; /* Available IRQs */ 

) attribute ((packed)) irqg[4]; 

u8 slot; /* Slot number, O=onboard */ 

u8 rfu; 


. attribute | ((packed)) ; 


对 于 系统 中 每 条 PCI 总 线 上 的 每 个 模块 ， 路 径 表 中 都 有 个 im info 结构 。 结 构 中 给 出 了 其 4 条 中 
断 请 求 线 与 路 径 互 连 器 输入 线 的 连接 ， 则 时 还 有 个 位 图 ， 说 明了 可 供 选择 的 连接 对 象 ， 即 中 断 控制 器 
的 各 条 输入 线 。 

首先 通过 pirq find routing table( ) 在 BIOS 所 在 的 区 间 扫 描 ， 以 找到 中 断 请 求 路 径 表 ， 其 代码 在 
arch/i386/kernel/pci-irq.c 中 : 


[pci init( ) > pcibios init( ) > pcibios irq 1nit ( ) > pirg_find_routing_table( )] 


46 
47 
48 
49 


/* 
* Search Oxf0000 -- Oxfffff for the PCI IRQ Routing Table. 
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50 static struct irq routing table * __init pirq_find_routing_table (void) 


51 | 

52 u8 *addr; 

53 struct irq routing table *rt; 

54 int i; 

55 u8 sum; 

56 

57 for (addr = (u8 *) __va(0xf0000); addr < (u8 *) __va(0x100000) ; 
addr += 16) { 

58 rt = (struct irq routing table *) addr; 

59 if (rt->signature != PIRQ SIGNATURE || 

60 rt-?version != PTRQ VERSTON || 

61 rt-»size % 16 || 

62 ri-^size € sizeof(struct irq routing table)) 

63 continue; 

64 sum = Q; 

65 for (i=0; i<rt->size; i++) 

66 sum += addr[il; 

67 if (!sum) | 

68 DBG (“PCI: Interrupt Routing Table found at Ox%p\n”, rt): 

69 return rt; 

70 } 

71 } 

T2 return NULL; 

Bo} 


内 核 中 有 个 全 局 的 指针 pirq_table， 指 向 从 BIOS 找到 的 中 断 请 求 路 径 表 。 如 果 找 到 了 这 个 路 径 表 
(524 行 )， 就 要 进一步 加 以 处 理 了 。 函 数 pirq peer trick( ) 的 代码 在 arch/1386/kernel/pci-irq.c 中 : 


[pci_init( ) > pcibios_init( ) > pcibios_irq_init( ) > pirq_peer_trick( )] 


75 /* 

76 * If we have a IRQ routing table, use it to search for peer host 
77 * bridges. It’s a gross hack, but since there are no other known 
78 * ways how to get a list of buses, we have to go this way. 

79 */ 

80 

81 static void . init pirq peer trick (void) 

82 { 

83 struct irq routing table *rt = pirq table; 

84 u8 busmap[256] : 

85 int i; 

86 struct irq info *e; 

87 

88 memset(busmap, 0, sizeof(busmap)); 

89 for (i70; 


i € (rt->size - sizeof(struct irq routing tablo)) / sizeof(struct irq info); i++) 
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{ 
90 e = &rt-?slots[il; 
91 Bifdef DEBUG 
92 { 
93 int j; 
94 DBG (“%02x :%02x slot-*02x/, e-^bus, e->devfn/8, e->slot): 
95 for (j=0; j<4; j++) 
96 DBG(” %d:%02x/%04x”, j, e-^irqlj]. link, e-^irqLj]. bitmap); 
97 DBG C n^) ; 
98 } 
99 Hendif 
100 busmap[e->bus] = 1; 
101 } 
102 for(i-1; 1«256: i++) 
103 /* 
104 * It might be a secondary bus, but in this case its parent is already 
105 * known (ascending bus order) and therefore pci scan bus returns 
immediately. 
106 */ 
107 if (busmapli] && pci scan bus(i, pci root bus->ops, NULL)) 
108 printk( PCl: Discovered primary peer bus %02x [IRQ]\n”, i): 
109 pcibios last bus = -1: 
110 } 


代码 中 先 递 过 89 行 的 for 循环 对 中 断 请 求 路 径 表 中 各 个 表 项 所 涉及 的 总 线 作 BA, HAR 
以 后 ， 凡 是 与 数组 busmap[ ]( 以 总 线 号 为 下 标 ) 中 为 1 的 表 项 相对 应 的 总 线 都 是 在 路 径 表 中 有 表 项 的 。 
一 般 而 言 ， 这 些 总 线 应 该 都 已 经 侍 前 一 阶段 中 完成 了 扫描 枚 举 ， 但 是 从 pcibios_init( ) 中 通过 
pei_scan_bus( ) 扫 描 的 是 从 0 号 总 线 开 始 的 一 棵 树 ， 如 果 系 统 中 除 此 之 外 还 有 其 他 的 PCI 主 总 线 ， 则 尚 
未 受到 扫描 。 现 在 , 既然 有 了 - 份 所 有 PCI 总 线 的 清单 , 就 可 以 在 其 指引 上 有 甩 标 地 通过 pci_scan_bus( ) 
扫描 。 这 个 函数 对 寺 已 经 扫描 的 PCI 总 线 实际 上: 不 起 作用 ， 并 返 加 | 0( 读 者 最 好 到 有 关 的 代码 中 验证 一 
下 ); 而 车 返回 非 0， 则 说 明 扫 描 到 了 一 条 未 经 扫描 的 PCI 总 线 (更 确切 地 说 是 一 棵 树 )， 侧 这 必定 是 一 
条 十 总 线 。 最 后 ， 代 码 中 把 一 个 全 局 量 pcibios_last_bus 设 成 一 1， 表 示 系 统 中 所 有 的 二 总线 都 已 打 描 ， 
以 后 就 不 用 再 为 此 操心 了 。 

回 到 pcibios_irq_init( ) 的 代码 中 ， 补 上 了 可 能 的 遗漏 以 后 ， 接 着 就 要 来 处 理 路 径 互 连 器 了 。 中 断路 
IERE j PCI-ISA 桥 集 成 企 同 一 芯片 中 ， 并 且 也 作为 PCI 设备 连接 在 PCI 总 线 上 。 路 径 表 头 部 
的 rtr bus 和 rtr_devfn 两 个 字段 指明 了 该 设备 所 在 的 位 置 , rtr_vendor, 利 rtr device 两 个 字段 则 为 芯片 的 
提供 者 及 其 产品 编号 。 函 数 pirq_find_router( ) 的 作用 就 是 找到 这 个 设备 的 pei dev 数据 结构 ， 并 根据 其 
提供 者 及 产品 编号 找到 相应 的 驱动 涡 数 ， 其 代码 也 人 在 arch/i386/kernel/pci-irq.c 路: 


[pci init( ) > pcibios_init( ) > pcibios irq init( ) > Pirq_find_router( )] 


347 static struct irq router *pirq router; 
348 static struct pci dev *pirq router dev; 
349 
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static void | init pirq find router (void) 

{ 
struct irg routing table *rt = pirq table; 
struct irq router *r; 


4ifdef CONFIG PCI BIOS 
Hendif 
/* fall back to default router if nothing else found */ 


pirq router = pirq routers + 
sizeof (pirq routers) / sizeof (pirq routers[0]) - 1; 


pirq router dev = pci find slot(rt->rtr_bus, rt—>rtr devfn) ; 
if (!pirq router dev) | 
DBG (“PCI: Tnterrupt router not found at %02x:%02x\n’, 
rt-»rtr bus, rt-»rir devfn); 
return; 


} 


for (r=pirq_ routers; r->vendor; r++) { 
/* Exact match against router table entry? Use it! */ 


if (r—->vendor == rt->rtr vendor && r-^device == rt- Yrtr device) { 
pirq router = r; 
break; 

} 


/* Match against router device entry? Use it as a fallback */ 
if (r->vendor == pirq router dev-^vendor && 
r-»device == pirq router dev—>device) { 
pirq router = r; 
} 
} 
printk("PCI: Using IRQ router %s [%04x/%04x] at %s\n”", 
pirq router-?name, 
pirq router dev-^vendor, 
pirq router dev-?device, 
pirq router dev—>slot name); 


} 
中 断路 径 互 连 器 由 一 个 irq_router 数据 结构 代表 ， 定 义 十 arch/i386/kernel/pci-irq.c: 


struct irq router | 
char *name; 
ul6 vendor, device; 
int (*get) (struct pci dev *router, struct pci dev *dev, int pirg); 
int (*set) (struct pci dev *router, struct pci dev *dev, int pira, int new); 
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结构 中 的 函数 指针 get 和 set 用 于 读 出 和 改变 芯片 中 的 芯 连 ， 不 同 的 芯片 可 能 有 不 同 的 get 和 set 
"X. PC 机 中 可 能 采用 的 此 类 芯片 有 好 几 种 ，arch/i386/kernel/pei-irq.c 中 定义 了 一 个 irq_router 结构 数 
组 pirq_routers[ ]， 里 面包 括 了 各 种 常用 的 芯片 。 为 减 小 篇 幅 ， 我 们 从 中 删 去 了 一 部 分 。 


323 static struct irq router pirq routers[ ] = | 


324 { "PIIX', PCI VENDOR ID INTEL, PCI DEVICE ID TNTEL, 82371FB 0, 
pirq piix get, pirg piix set |, 
325 { “PIIX”, PCI VENDOR ID INTEL, PCT DEVICE ID INTEL 82371SB 0, 


pirg piix get, pirq piix set }, 


330 { “ALI”, PCI VENDOR ID AL, PCT DEVICE ID AL M1533, 
pirq ali get, pirq ali set ], 
331 { “VIA”, PCT VENDOR ID VIA, PCI DEVICE 1D VIA 82C586 0, 


pirq via get, pirq via set }, 


© * v" .- * ow 


336 { “OPTI”, PCI VENDOR ID OPTI, PCI DEVICE ID OPTT 82C700, 
pirq opLi get, pirq opti set }, 
337 { “NatSemi”, PCI VENDOR ID CYRIX, PCT DEVTCE ID CYRIX 5520, 


pirq cyrix get, pirq cyrix set }, 


344 { “default”, 0, 0, NULL, NULL } 
345 E 


内 核 中 有 个 全 局 的 指针 pirq_router， 用 来 指 问 中 斯 路 径 互 连 器 的 irq router 数据 结构 。 先 通过 
pci_find_slot( ) 找 到 其 pci dev 数据 结构 。 如 果 找 不 到 就 让 指针 pirq_router 指向 pirq_routers[ ] 中 的 最 后 
一 项 “default”， 即 不 存在 get 和 set WSR. AURE pirq_routers[ ] 中 找到 所 用 的 中 断路 径 互 连 器 芯 
片 ， 并 使 pirq_router 指向 相应 的 irq_router 数据 结构 。 

此 外 ， 路 径 表 中 还 有 个 位 图 exclusive_irqs， 位 图 中 为 1 的 位 表示 中 断 控制 器 的 相应 输入 应 该 应 该 
tH, 而 避免 为 多 个 中 断 源 所 共用 。 所 以 , 对 十 这 些 中 断 请 求 输入 线 , 代码 中 在 -一 个 数组 pirq_penalty[ ] 
的 相应 元 素 上 增加 了 -一 个 “每 刘 量 ”100， 使 得 在 选择 中 断路 径 互 连 时 不 太 会 选择 这 些 作为 对 象 。 

还 要 注意 ， 中 断路 径 互 连 器 仪 在 采用 常规 的 8259A 中 断 控制 器 时 才 使 用 ， 所 以 若 系 统 采 用 “高 级 
可 编程 中 断 控 制 器 ”APIC 就 在 前 面 的 535 行 把 全 局 指针 pirq_table 设 成 0， 因 为 APIC 本 来 就 是 “可 编 
程 ”的 。 

那么 ， 要 是 在 BIOS 中 找 不 到 中 断 请 求 路 径 表 或 者 找 泵 到 路 径 互 连 器 怎么 办 昵 ? 那 就 只 要 采用 默 
认 的 连接 ， 不 需要 设置 。 

前 面 ， 企 pirq_peer_trick() 中 ， 根 据 中 断路 径 表 的 指引 对 系统 中 除 0 号 总 线 以 外 的 主 总 线 进行 了 有 
Aisi sia. (He, RRA RAR Tee? Ab RUT ASAT. “AR, BUSH 
的 效率 比 有 目标 的 扫描 要 低 ， 这 号 是 为 什么 把 对 其 他 主 总 线 的 扫描 推 运 到 找到 了 (或 找 不 到 ) 中 断路 径 
表 以 后 的 原因 。 当 然 ， 其 代价 是 使 代码 更 难 懂 了 。 

函数 pcibios_fixup_peer_bridges( ) 对 除 0 号 总 线 以 外 的 主 总 线 进 行 盆 举 扫描 。 但 是 如 果 忆 经 在 路 径 
表 的 指引 卜 进行 了 扫描 ， 则 全 局 量 pcibios_last_bus 为 负 ( 见 前 面 pirq-. peer. trick( ) 的 代码 )， 因 而 立即 就 
WRIA]. eS eK S RAST arch/i386/kernel/pci-pc.c P: 
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[pci init( ) > pcibios init( ) > pcibios fixup peer bridges( )] 


776 /* 

101 * Discover remaining PCI buses in case there are peer host bridges. 
778 * We use the number of last PCL bus provided by the PCI BIOS. 

779 */ 

780 static void _ init pcibios fixup peer bridges (void) 


781 | 
782 int n; 
783 struct pci bus bus; 
184 struct pci dev dev; 
185 ul6 l; 
786 
787 if (pcibios last bus <= 0 || pcibios last bus >= Oxff) 
788 return; 
789 DBG('PCI: Peer bridge fixup\n”) ; 
790 for (n-0; n <= pcibios last bus; n++) { 
791 if (pci bus exists(&pci root buses, n)) 
792 continue; 
793 bus. number = n; 
794 bus. ops = pci root ops; 
795 dev. bus = &bus; 
796 for (dev. devfn=0; dev. devfn<256; dev. devfn += 8) 
797 if (pci read config word(&dev, PCI VENDOR ID, &1) && 
198 1 !- Ox0000 && 1 != Oxffff) { 
799 DBG( Found device at %02x:%02x [%04x]\n”, n, dev.devfn, 1); 
800 printk("PCI: Discovered peer bus %02x\n”, n); 
801 pci scan bus(n, pci root ops, NULL); 
802 break; 
803 } 
804 } 
805 } 
我 们 把 这 个 函数 留 给 读者 。 


回 到 pcibios_init() 的 代码 中 , 我 们 继续 阅读 有 关中 断 请 求 路 径 互 连 的 代码 , 函数 pcibios_fixup_irqs( ) . 
的 代码 在 arch/i386/kernel/pci-irg.c 中 ， 我 们 抽 去 了 采用 APIC 时 的 条 件 编译 部 分 。 


{pci_init( ) > pcibios_init( ) > pcibios, fixup 'irqs( )] 


539 void __init pcibios fixup_irqs (void) 


540 { 

541 struct pci dev *dev; 

542 u8 pin; 

543 

544 DBG (“PCI: IRQ fixupNn ) ; 
545 pci for each dev(dev) { 
546 /* 
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547 * If the BIOS has set an out of range IRQ number, just ignore it. 
548 * Also keep track of which IRQ's are already in use. 
549 */ 
550 if (dev-irg >= 16) { 
551 DBG("%s: ignoring bogus TRQ %d\n”, dev—>slot_name, dev—-> irq) : 
552 dev->irq = 0; 
553 } 
554 /* If the TRQ is already assigned to a PCI device, 
ignore its ISA use penalty */ 
555 if (pirq penalty[dev-^irq] >= 100 && pirq penalty[dev-^irq] < 100000) 
556 pirq_penalty[dev—>irg! = 0; 
557 pirg penalty[dev—-irg]++: 
558 } 
559 | 
560 pci for each dev(dev) { 
561 pci read config byte(dev, PCI INTERRUPT PIN, &pin); 


062 #ifdef CONFIG X86 IO APIC 


r #@ 8 8 4 


595 #endif 

596 /* 

597 * Still no TRQ? Try to lookup ono... 
598 */ 

599 if (pin && !dev-^irq) 

600 pcibios lookup ira(dev, 0); 

601 i 

602 } 


这 里 的 pci_for_each_dev( ) 是 个 宏 定 义 ， 是 个 对 全 局 pei. dev 数据 结构 队列 pci_devices 的 循环 ， 定 
SCF include/linux/pci.h: 


305 #define pci for each dev (dev) \ 

306 for(dev = pci dev g(pci devices. next): \ 
dev !- pci dev g(&pci devices); \ 
dev = pci dev g(dev-^global list.next)) 


AUIBUS. REST WT TS e 2S PAS BEE eB rp n ab SR BU ACA ric. Tub, rasis 
RRJ 16 条 输入 线 并 不 是 可 以 随意 选用 的 ， 例 如 0 号 中 断 请 求 线 就 应 该 由 时 钟 中 断 专 用 。 另 一 方面 ,还 
要 尽 可 能 把 各 项 PCI 设备 均匀 地 分 布 到 不 同 的 中 断 请 求 线 上 。 为 此 ， 内 核 中 设立 了 个 (整数 ) 数 组 
pirq_penalty[ ]， 汪 一 个 简单 的 算法 结合 在 一 起 ， 就 可 以 确定 中 斯 请 求 输入 线 的 选择 ， 这 个 数组 定义 于 
arch/i386/kernel/pci-irq.c 中 : 


2T /* 

28 * Never use: 0, 1, 2 (timer, keyboard, and cascade) 

29 * Avoid using: 13, 14 and 15 (TP error and IDE). 

30 * Penalize: 3, 4, 6, 7, 12 (known ISA uses: serial, floppy, parallel and mouse) 
3l */ 
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32 unsigned int pcibios irq mask = Oxfff8， 


33 

34 static int pirq penalty[16] = { 

35 1000000, 1000000, 1000000, 1000, 1000, 0, 1000, 1000, 
36 0, 0, 0, 0, 1000, 100000, 100000, 100000 

at 上 


数组 的 大 小 为 16, 对 应 着 16 条 中 断 请求 输 入 线 。 每 个 元 素 代 表 着 因 选 用 相应 中 断 请求 输 入 线 而 受 
到 的 “惩罚 ”(penalty)， 所 以 选择 时 总 是 要 选用 受 候 罚 最 小 的 。 中 肠 请 求 输入 线 0、1、2、13、14、 和 
15 的 征召 一 开始 就 十 1000000, 所 以 实际 上 永远 不 会 选用 这 几 条 输入 线 , 一 开始 时 , 中 断 请 求 输入 线 5、 
8、9、10、 和 11 的 惩罚 为 0， 所 以 开始 时 总 是 在 这 几 条 线 中 选择 。 对 于 同一 条 中 断 请 求 输入 线 ， 选 用 
它 的 设备 愈 多 ， 则 再 次 选用 它 时 受到 的 “惩罚 ”就 您 大 。 所 以 ， 只 要 设备 的 数量 不 是 太 大 ， 则 中 断 请 
KWAR 3. 4. 6. 7 和 12 也 实际 上 不 会 被 选用 。 而 负荷 的 均匀 分 布 ， 则 在 选择 的 过 程 中 AAT 
保证 。 

代码 中 通过 一 个 for 循环 (545 行 ) 扫 描 系 统 中 所 有 的 PCI 设备 ， 对 使 用 中 断 控制 器 各 条 输入 线 的 设 
备 计 数 (557 行 )， 从 而 在 pirq_penalty[ ] 中 累积 起 选用 各 条 中 断 请 求 输入 线 的 惩罚 量 。 中 断 控 制 器 的 有 些 
输入 线 最 好 能 保留 给 ISA 总 线 上 的 设备 专用 ， 路 径 表 中 通过 一 个 位 图 指明 了 这 些 输入 线 。 为 此 ， 前 面 
pcibios_irq_init( ) 中 在 pirq, penalty[ 的 相应 元 素 上 增加 了 -一 个 惩 苦 量 100。 吕 是 ， 那 只 是 为 了 让 PCI 设 
备 避 免 使 用 这 些 输入 线 ， 旭 果 发 现 某 个 PCI 设备 已 经 在 使 用 这 样 的 输入 线 ， 那 就 又 另 当 别论 了 。 底 然 
LZA PCI 设备 在 用 ， 戒 规 已 经 打破 ， 屠 就 林 妨 让 判 的 PCI 设备 也 来 使 用 ， 所 以 这 里 (556 行 ) 干 脆 把 惩 
罚 量 设 成 0， 重新 计数 。 

然后 ， 又 通过 for 循环 再 米 一 次 对 所 有 PCI 设备 的 扫描 (560 行 )。 如 果 从 寄存 器 
PCI INTERRUPT PIN 恋 入 的 内 容 非 9， 就 表示 该 设备 有 中 断 功 能 。 此 时 如 果 dev->ird 为 0， 即 尚 不 知 
道 与 中 断 控 制 溃 的 哪 :条 中 断 请 求 输入 线 相 连 ， 就 要 通过 pcibios_lookup_irq( ) 寻 找 。 寻 找 什么 呢 ? 如 
前 所 述 ， 如 果 知 道 一 个 设备 的 中 断 请 求 连 到 了 路 径 互 连 器 的 哪 . :条 输入 线 ， 并 且 发 现 这 条 线 已 经 在 路 
径 互 连 器 中 连接 到 了 中 断 控 制 匿 ， 也 就 知道 了 或 者 说 发 现 了 该 设备 的 中 断 请求 的 最 终 去 向 。 但 是 ， 如 
果 住 路 径 瞿 连 器 中 尚未 连接 昵 ?此 时 是 否 昌 在 中 断 控 制 占 的 输入 线 中 作出 选择 并 完成 连接 呢 ?” 这 是 由 
第 二 个 凋 用 参数 决定 的 。 这 里 (600 行 )， 把 参数 设 成 0， 表示 如 果 尚 未 连接 就 留 着 百 说 。 这 个 孙 数 的 代 
码 在 arch/i386/kernel/pci-irg.c 中 ， 这 个 函数 比较 长 ， 我 们 分 段 阅 读 。 





[pci init( ) > pcibios init( ) > pcibios_fixup_irqs( ) > pcibios lookup. irq( )] 


405 static int pcibios lookup irq(struct pci dev *dev, int assign) 
406 d 


407 u8 pin; 

408 struct irq info *info; 

409 int i, pirg, newirq; 

410 int irq = 0; 

411 u32 mask; 

412 struct irq router *r = pirq router; 
413 struct pci dev **dev2; 

414 char *msg - NULL; 
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415 

416 if (!pirq table) 

417 return O0; 

418 

419 /* Find IRQ routing entry */ 

420 pci read config byte(dev, PCI INTERRUPT PIN, &pin); 

421 if (!pin) { 

422 DBG(^ -> no interrupt pin); 

423 return 0; 

424 ] 

425 pin = pin- 1; 

426 

427 DBG('IRQ for %s:%d”, dev-^slot name, pin): 

428 info - pirq get info(dev); 

429 if (!info) { 

430 DBG(” -> not found in routing table\n’); 

431 return 0; 

432 } 

433 pirq = info—>irq{pin]. link; 

434 mask = info->irg[pin]. bitmap; 

435 if (pirqa) { 

436 DBG(” -> not routed\n”) ; 

437 return 0: 

438 } 

439 DBG(” -> PIRQ %02x, mask %04x, excl %04x”, 
pirq, mask, pirgq_table->exclusive irqs); 

440 mask &= pcibios irq mask; 

44] 

442 /* 

443 * Find the best IRQ to assign: use the one 

444 * reported by the device if possible. 

445 */ 

446 newirq = dev-?irq; 

447 if (!newirq && assign) | 

448 for (i = 0; i < 16; i++) { 

449 if (! (mask & (1 << i))) 

450 continue; 

451 if (pirq penalty[i] € pirq_penalty[newirg] && 

452 !request irq(i, pcibios test irq handler, SA SHIRQ, “pci-test”, dev)) { 

453 free irq(i, dev); 

454 newirq = i; 

455 } 

456 } 

457 } 

458 DBG(^ -> newirg=%d”, newirg) ; 

459 


先 从 设备 的 配置 寄存 器 组 读 入 寄存 器 PCIL_INTERRUPT_PIN， 以 得 知 其 中 断 请 求 连 在 PCI 总 线 的 
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-一 一 


哪 一 条 中 断 请 求 线 上 。 这 个 数值 是 从 1 开始 的 ， 所 以 要 把 它 调 整 成 从 0 开始 (425 行 )。 然 后， 通过 
pirq_get_info( ) 从 BIOS 提供 的 中 断路 径 表 中 找到 所 在 总 线 和 插 槽 的 路 径 信 息 ， 这 个 函数 的 代码 在 
arch/1386/kernel/pci-irq.c H: 


[pci init( ) > pcibios init( ) > pcibios_fixup_irqs( ) > pcibios lookup irq( ) > pirq. get. info( )] 


389 
390 
391 
392 


393 
394 
395 
396 


397 
398 
399 


static struct irq info *pirq get info(struct pci dev *dev) 


1 


} 


struct irq routing table *rt = pirq table; 
int entries = (rt->size ~ 

sizeof (struct irq routing table)) / sizeof(struct irq info); 
struct irq info *info; 


for (info = rt slots; entries--; infot+) 
if (info bus == dev—>bus->number && 
PCI SLOT(info-^devfn) == PCI SLOT (dev ->devfn) ) 
return info; 
return NULL; 


如 果 根 据 总 线 号 和 插 槽 号 找到 了 相应 的 irq_info 数据 结构 ， 那 么 这 个 结构 中 的 数组 irq[ ERER 


个 特定 插 模 的 4 条 中 断 请 求 线 跟 中 断路 径 互 连 器 的 连 搂 。 对 于 每 条 中 断 请 求 线 ， 数 据 结构 中 提供 了 天 
个 字段 。 其 中 link 的 主体 是 路 径 互 连 器 的 输入 线 号 ，bitmap 则 是 一 个 位 图 ， 表 示 哪 一 些 中 斯 控制 器 的 
和 输入 是 可 以 选择 作为 日 标的 。 在 bitmap 的 基础 |:， 内 核 中 还 有 个 全 局 的 屏蔽 位 图 pcibios_irq_mask， 定 
义 为 0xfffg， 表 示 中 断 请 求 号 0、1、2 是 不 能 选用 的 (440 行 )。 


我 们 继续 往 下 看 pcibios_lookup_irq( ) 的 代 始 (arch/i386/kernel/pci-irq.c)。 


[pci init( ) > pcibios_init( ) > pcibios_fixup_irqs( ) > pcibios lookup. irq( )] 


460 
461 
462 
463 
464 
465 
466 
467 
468 
469 
410 
471 
472 
473 
474 
475 
476 


/* Check if it is hardcoded */ 
if ((pirg & Oxf0) == OxfO) | 
irq = pirq & Oxf; 
DBG(^ -> hardcoded IRQ %d\n”, irq); 
msg = "Hardcoded"; 
if (dev irq && dev->irq !- irq) | 
printk(^IRQ routing conflict in pirq table! Try 'pci-autoirq M^); 
return 0; 
} 
) else if (r->get && (irq = r->get (pirg_router_dev, dev, pirq))) { 
DBG(^ -> got TRQ %d\n”, irq); 
msg = “Found”; 
/* We refuse to override the dev >irq information. Give a warning! */ 
if (dev irq && dev-^irq != irq) | 
printk(^IRQ routing conflict in pirq table! Try 'pci-autoirq WM); 
return 0; 


} 
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二 
477 } else if (newirg && r->set && 
(dev-^class >> 8) !- PCI CLASS DISPLAY VGA) { 


478 DBG(^ -> assigning IRQ %d”, newirg); 

479 if (r->set (pirg router dev, dev, pirq, newirq)) { 
480 eisa set level irq(newirq); 

481 DBG(^ ... OK\n”); 

482 msg = “Assigned”: 

483 irq = newirq; 

484 } 

485 } 

486 

487 if (tiro { 

488 DBG(” ... failed\n”): 

489 if (newirq && mask == (1 << newirg)) { 

490 msg = “Guessed”: 

491 irq = newirq; 

492 | else 

493 return 0; 

494 } 

495 printk (“PCI: %s IRQ %d for device *sWn^, msg, irq, dev->slot_name) ; 
496 


任 由 路 径 表 提供 的 信息 中 ， 字 段 link 的 高 4 位 为 1 时 表示 路 径 互 连 器 内 部 的 连接 是 “ 硬 连 接 ” 此 
时 其 低 4 位 就 是 中 断 控制 内 的 输入 线 号 ， 否 则 使 表示 路 径 互 连 器 内 部 的 连接 可 以 通过 get 和 set HAR 
数 指针 读 出 或 设置 。 所 以 ， 对 于 一 般 的 路 径 互 连 器 ， 只 要 其 函数 指针 get dE 0， 就 可 以 通过 它 读 出 连接 
的 目标 。 如 果 这 个 函数 的 返回 值 (irq) 非 0， 那 就 是 所 连接 的 日 标 ， 否 则 说 明 尚 未 连接 。 尚 未 连接 又 怎么 
办 呢 ? 前 面 讲 过 了 ， 留 着 再 说 ， 后 而 读者 会 看 到 究竟 留 到 什么 时 候 再 说 。 

如 果 已 经 连接 ， 则 我 们 己 经 搞 清 楚 了 目标 设备 中 断 请 求 的 最 终 去 向 ， 把 这 个 信息 记录 在 dev->irg 
PRAT. 但是， 系统 中 可 能 有 很 多 PCI 设备 部 连 在 同一 条 中 断 请 求 线 上 ， 因而 有 着 相同 的 去 向 ， 
应 该 这些 设备 分 享 这 个 信息 。 我 们 继续 往 下 看 pcibios_lookup_irq( ) 的 代 到 (arch/i386/kernelpeiirg o， 


[pci_init( ) > pcibios init( ) > pcibios_fixup_irqs( ) > pcibios lookup. irq( )] 


497 /* Update IRQ for all devices with the same pirq value */ 
498 pci for each dev(dev2) { 

499 pci read config byte(dev2, PCI INTERRUPT PIN, &pin); 
500 if (!pin) 

501 continue; 

502 pin 

503 info = pirq get info (devg) ， 

504 if (!info) 

505 continue; 

506 if (info 'irg[pin]. link == pirg) { 

507 dev2-^irq = irq; 

508 pirq_penaltylirg]++: 

509 if (dev != dev2) 
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510 printk( PCI: The same IRQ used for device %sNn ， 
dev2->slot_name) ; 


511 } 
512 } 
513 return 1; 
514 } 
这 段 代 码 就 很 简单 了 。 


搞 清 了 中 断 请 求 的 去 向 ， 下 -“ 步 就 是 为 各 个 PCI 设备 中 的 各 个 地 址 区 间 分 配 总 线 地 址 ， 并 设置 好 
各 个 PCI 设备 对 这 些 区 间 ( 到 总 线 地 址 ) 的 映射 了。 我 们 在 前 面 已 经 看 到 ， 每 个 PCI WS ANI LAL AF 
存 器 组 提供 其 各 个 区 间 的 起 始 地 址 利 区 间 大 小 ， 但 那 可 能 只 是 在 设备 内 部 的 地 址 ， 或 者 是 由 BIOS 分 
配 的 总 线 地 址 。 所 以 ， 对 于 前 者 需要 在 一 个 统一 的 总 线 地 址 空间 为 这 些 区 间 分 配 地 址 并 建立 映射 ， 对 
于 后 者 则 要 加 以 验证 和 确认 ， 并 为 之 建立 起 相应 的 数据 结构 。 对 于 CPU 来 说 ， 总 线 地 址 相当 于 物理 地 
址 ， 以 后 在 此 基础 上 还 要 再 加 上 一 层 映 射 ， 将 虚拟 地 址 映射 到 总 线 地 址 .在 分 配 的 过 程 中 ， 只 要 点 来 
已 经 分 配 的 地 址 可 用 ， 就 尽量 维持 原状 ， 对 这 些 地 址 只 是 验证 一 下 ， 并 为 之 建立 起 相应 的 数据 结构 。 
滥 么 ， 什 么 样 的 地 址 才 是 不 可 用 的 从 而 需要 另行 分 配 的 呢 ? 后 击 读 者 将 会 看 到 详情 ， 这 里 先 简单 说 - 
下 。 首 先 ， 在 系统 初始 化 以 后 ， 已 经 把 物理 地 址 空间 低 端 的 -大 块 分 配给 了 内 核 本 身 ， 这 些 地 址 当然 
不 能 再 用 十 PCI 总 线 ， 而 设备 内 部 的 地 址 都 在 低 端 ， 央 此 需要 为 之 另行 分 配 地 址 。 其 次 ，PCI 没 备 的 
各 个 区 间 不 允许 互相 冲突 ， 如 果 发 生 冲 突 也 要 作出 调整 。 对 于 IO 地 址 也 是 一 样 。 

对 于 存储 器 和 VO 两 种 地 址 资源 的 管理 ， 内 核 中 有 一 套 地 址 资源 管理 机 制 。 每 一 个 迪 辑 意义 上 独 
立 的 连续 地 址 区 间 都 以 一 个 resource 数据 结构 代表 ， 定 义 于 include/linux/ioport.h: 


11 /* 

12 * Resources are tree-like, allowing 

13 * nesting etc.. 

14 */ 

15 struct resource { 

16 const char *name; 

17 unsigned long start, end: 

18 unsigned long flags; 

19 struct resource *parent, *sibling, *child; 
20- 小， 


结构 中 的 start 和 end 表示 该 区 间 的 地 址 范围 ,flags 是 表示 区 问 性 质 的 一 些 标记 位 。 指 针 child. sibling 
和 parent 则 用 来 维系 可 以 上 下 两 个 方向 攀援 的 树 形 结构 。 每 个 < 间 (的 resource 45+) AM EE child 
指向 其 第 个子 区 间 , 而 同 … 区 间 的 所 有 子 区 间 则 通过 指针 sibling 形成 一 个 单 链 , 江都 通过 指 付 parent 
HINER. Bla, EAH 2KB 的 地 址 空间 0x1000 一 0x17ff， 这 区 间 已 经 分 配给 某 项 特定 的 用 
途 ， 假 定 是 在 一 块 4 口 串 行 接口 卡 上 用 作 接 收 缓冲 区 ， 所 以 已 经 有 了 一 个 resource 数据 结构 。 然 后 ， 
对 于 此 项 特定 的 用 途 ， 又 把 其 中 0x1000—0x11ff, 0x1200—0x13ff 和 0x1400—0x15ff 三 个 512 学 节 的 
子 区 间 进 一 步 分 配给 了 这 块 卡 上 的 三 个 串 行 口 ， 但 是 还 剩 下 最 后 512 学 节 尚 木 分 配 山 去 ， 规 么 在 2KB 
的 resource 数据 结构 下 面 就 有 一 个 3 个 resource 数据 结构 的 队列 ， 如 图 8.5 ras. Wa, HEAR AR 
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PIT ODEI, EE 2KB 的 resource 数据 结构 中 找到 该 区 间 的 顶端 为 0x17 企 ， 而 在 其 子 区 间 队 
列 中 则 找到 已 经 分 呢 的 最 高 地 址 为 0x15ff， 并 日 在 此 之 前 并 无 合适 的 空洞 可 供 分 配 ， 所 ce 正好 可 以 把 
最 后 512 字 节 分 配 出 去 ， 并 且 在 其 子 区 间 队 列 中 再 挂 上 一 个 0x1600~0x17ff 的 resource 数据 结构 。 


0x 1000-~0x 17ff 
0x 1000-~~0x 11 ff 0x 1200~0x13ff 


图 8.5 地 址 空间 分 配 示意 图 






0x 1400~~ 0x 15ff 


最 初时 ， 系 统 中 只 有 两 个 区 间 ， 一 个 代表 着 VO 地 址 空间 ， 男 一 个 代表 着 内 存 地 址 。 前 面 讲 过 ， 
对 于 VO 地 址 空间 只 能 通过 VO 指令 访问 , 而 对 内 存 地 址 空间 则 只 能 通过 访 内 指令 访问 。 这 两 个 区 间 的 


resource 结构 定义 于 kernel/resource.c: 


18 struct resource ioport resource = { “PCI 10”, 0x0000, 
IO SPACF LIMIT, TORESOURCE IO }; 
19 struct resource iomem resource = { “PCT mem”, 0x00000000, 
Oxffffffff, LORESOURCE_MEM }; 


我 们 在 前 面 也 已 看 到 ， 在 为 主 PCI 总 线 建立 pci bus 结构 时 ， 它 的 两 个 区 间 指 针 一 个 指向 
ioport_resource， 表 示 如 果 需 要 VO 地 址 区 间 就 从 ioport_resource 中 分 配 ， 男 … 个 指向 iomem resource, 
表示 如 果 需 要 内 存 地 址 区 间 就 从 iomem_resource 中 分 配 。 个 过， 系统 在 初始 化 阶段 已 经 从 这 两 个 空间 
中 分 配 了 许多 资源 ， 所 以 已 经 不 百 是 像 它 们 的 初 值 所 表示 的 整个 VO 地 址 空间 或 整个 内 存 地 址 空间 了 。 

对 总 线 地 址 的 确认 与 分 配 是 由 pcibios resource survey( ) 完 成 的 ， 其 代码 在 
arch/i386/kernel/pci-i386.c F: 


[pci init( ) > pcibios_init( ) > pcibios_resource_survey ( )] 


297 void __init pcibios resource survey (void) 


298 d 

299 DBG(/PCI: Allocating resourcesW ^); 

300 pcibios allocate bus resources(&pci root buses); 
301 pcibios allocate resources (0) ; 

302 pcibios allocate resources(1); 

303 pcibios assign resources( ); 

304  ] 


. 230 . 
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[pci_init( ) > pcibios_init( ) > pcibios resource survey ( ) > pcibios allocate bus resources( )] 


152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 
166 
167 


CERIS 


168 . 


169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
19} 
192 
193 


* 0X X F FF KF HF X %e X X KF HK KW HN HH HH 0X 0X 0X F¥ X X BB HB KH KE K KH KH X 


* 
wW 


Handle resources of PCI devices. If the world were perfect, we could 
just allocate all the resource regions and do nothing more. It isn’ t. 


首先 通过 pcibios allocate bus resources( )7g &jó& PCI 总 线 分 配 地 址 资源 ， 其 代码 在 同一 文件 
(pei-i386.c) F: 


On the other hand, we cannot just re-allocate all devices, as it would 


require us to know lots of host bridge internals. So we attempt to 
keep as much of the original configuration as possible, but tweak it 
when it's found to be wrong. 


Known BIOS problems we have to work around: 

~ I/O or memory regions not configured 

- regions configured, but not enabled in the command register 

- bogus I/0 addresses above 64K used 

- expansion ROMs left enabled (this may sound harmless, but given 
the fact the PCI specs explicitly allow address decoders to be 
shared between expansion ROMs and other resource regions, it's 
at least dangerous) 


Our solution: 

(1) Allocate resources for all buses bchind PCI-to-PCI bridges. 
This gives us fixed barriers on where we can allocate. 

(2) Allocate resources for all enabled devices. If there is 
a collision, just mark the resource as unaliocated. Also 
disable expansion ROMs during this step. 

(3) Try to allocate resources for disabled devices. If the 
resources were assigned correctly, everything goes well, 
if they weren t, they won t disturb allocation of other 
resources. 

(4) Assign new addresses to resources which were either 
not configured at all or misconfigured. If explicitly 
requested by the user, configure expansion ROM address 
as well. 


static void ^ init pcibios allocate bus resources (struct list head *bus list) 


| 


struct list head *1n; 
struct pci bus *bus; 
struct pci dev *dev; 

int idx; 

struct resource *r, *pr; 


/* Depth-First Search on bus tree */ 
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194 for (ln=bus_list->next; In != bus list; ln=ln->next) | 

195 bus = pci_bus_b(1n); 

196 if ((dev = bus-^self)) { 

197 for (idx - PCI BRIDGE RESOURCES; idx < PCI NUM RESOLRCES; idx++) ( 

198 r = &dev— resource[idx]; 

199 if (tr-^start) 

200 continue; 

201 pr ^ pci find parent resource(dev, r); 

202 if (pr || request resource(pr, r) < 0) 

203 printk(KERN ERR "PCI: Cannot allocate resource region *d of 
bridge %s\n”, idx, dev—-^slot name); 

204 } 

205 } 

206 pcibios allocate bus resources (&bus->children) : 

207 j 

208  ] 


参数 bus list 指向 一 个 队列 涉 ， 实 际 上 是 一 -个 pei bus 结构 队列 ， 第 一 次 调用 这 个 函数 时 指向 队列 
pci_root_buses， 即 所 有 通过 “宿主 一 PCI 桥 ” 相 连 的 PCI 总 线 (通常 内 有 一 条 )。 如 前 所 述 ， 每 条 PCI 
总 线 都 有 可 能 通过 “PCI-PCI 桥 ” 连 接 到 更 次 层 的 其 他 PCI 总 线 ， 所 以 每 个 pci_bus 数据 结构 中 部 有 个 
队列 尖 children， 用 来 维持 次 层 PCI 总 线 的 pei bus 结构 队列 。 完 成 了 对 PCI 总 线 和 设备 的 校 举 以 后 ， 
这 些 数据 结构 都 已 经 各 就 各 位 了 。 既 然 PCI 总 线 的 系统 结构 是 递归 的 ， 对 整个 PCI 结构 的 资源 分 配 就 
自然 也 是 递归 的 ， 所 以 206 行 对 次 层 pci. bus 结构 队列 递归 调用 pcibios_allocate_bus_resources(), [4 F 
TETRISEULAE BR ES. 代码 中 外 层 的 for 循环 (194 行 ) 是 对 同一 队 便 中 所 有 pei. bus 结构 的 循环 。 对 于 总 线 
AH, BI PCI 桥 ， 由 内 层 的 for 循环 (197 行 ) 对 其 4 个 (从 7 至 10) 地 引 区 间 加 以 检验 。 

这 里 的 闻 数 PCL BRIDGE RESOURCES fil PCI NUM. RESOURCES 均 定义 于 include/linux/pci.h: 


367 /® 

368 * For PCI devices, the region numbers are assigned this way: 

369 * 

370 * (0-5 standard PCI regions 

371 * 6 expansion ROM 

372 * 7-10 bridges: address space assigned to buses behind the bridge 
373 */ 

374 


315 #define PCT ROM RESOURCE 6 
376 &define PCI BRIDGE RESOURCES 7 
377 #define PCT_NUM_RESOLRCES 11 


对 于 普通 的 PCL 设备 ， 其 pei dev 结构 中 的 开头 6 个 (0 至 59) 地址 区 间 是 设备 [可 能 有 的 区 问 , 第 7 

^ bx fH] (6) ab AT BEA 8337 76 ROM 区 间 。 如 果 这 设备 是 个 PCI 桥 ， 则 后 面 偿 有 4 个 区 间 ，pci_bus 结构 中 

的 4 个 resource 指针 就 分 别 指向 这 4 个 区 间 。 前 和 面 ， 我 们 在 阅读 pci_read_bridge_bases( ) 时 说 过 ，PCI 

恬 本 身 并 厅 “ 使 用 ”这 些 区 间 中 的 地 三， 向 是 用 这 些 区 间作 为 地 址 过 滤 的 窗口 。 其 中 第 一 个 窗口 用 于 

UO 地 和 十， 第 二 个 用 于 存储 句 了 地 址 ， 第 一 个 则 为 “可 预 取 ” 存储 占 地 址 区 问 。 此 外 ， 还 有 一 个 用 十 扩 
+ 232: ; 
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充 ROM 区 间 的 窗口 。 次 层 总 线 上 所 有 设备 (包括 PCI 桥 ) 所 使 用 的 地 址 部 必须 在 这 些 窗 串 中. 换言之, 这 
些 设备 所 需要 的 地 址 资源 都 要 从 这 些 区 间 中 分 配 。 所 以 ， 每 个 PCI 桥 或 者 说 每 条 PCI AR, Bie MA 
其 上 层 “ 批 发 ”下 一 些 地 址 资源 ， 然 后 “零售 ”分 配给 连接 在 这 条 总 线 上 的 所 有 设备 ， 包 括 把 其 路 的 
一 部 分 批发 给 更 次 层 总 线 。 就 这 样 ， 每 一 条 PCI 总 线 上 的 设备 都 向 其 所 在 的 总 线 批 发 地 址 资源 ， 出 总 
线 则 向 其 上 层 总 线 批发 。 那 么 ， 顶 层 的 PCI 总 线 又 向 谁 批发 呢 ? Bw rt ioport_resource 和 
iomem_resource， 这 是 两 种 地 址 资源 终极 的 米 源 。 

如 果 PCI 桥 的 某 个 区 间 已 丝 有 了 对 资源 的 需求 ， 就 此 先 通过 pci_find_parent_resourcc( ) 看 看 其 “ 父 
节点 ”是 否 拥有 其 所 需 的 地 址 资源 ， 其 代码 在 include/linux/pci.h 中 : 





[pci_init( ) > pcibios init( ) > pcibios resource, survey ( ) > pcibios_allocate_bus_resources( ) 
> pci find parent, resource( )] 


164  /** 

165 * pci find parent resource - return resource region of parent bus of given region 
166 * Gdev: PCT device structure contains resources to be searched 

167 * (Ores: child resource record for which parent is sought 

168 * 

169 * For given resource region of given device, return tho resource 

170 * region of parent bus the given region is contained in or where 

171 * it should be allocated from. 

172 */ 


173 struct resource * 
174 pei find parent resource (const struct pci dev *dev, struct resource *res) 
i5. wj 


176 const struct pci bus *bus = dev—5bus; 

177 Int i; 

178 struct resource *best - NULL; 

179 

180 for(i-0; i<4; i+!) f 

181 struct resource *r = bus-^resourceli]: 

182 if n 

183 continuo; 

184 if (res start && !(res- start >= r— start && res-^end <= r->end)) 
185 continue; /* Not contained */ 

186 if ((res)O flags © r->flags) & (LORESOURCE TO | IORESOURCE MEM) ) 

187 continue;  /* Wrong type */ 

188 if (! (Gres >flags | r— flags) & TORESOURCE. PREFETCH) ) 

189 return r; — /* Exact match */ 

190 if ((res- flags & IORESOURCE. PREFETCH) && ! (r->flags & TORESOURCE PREFETCH) ) 
191 best = r; /* Approximating prefetchable by non-prefetchable */ 
192 } 

193 return best; 

194} 


参数 dev 指向 代表 着 次 层 总 线 的 PCL 桥 的 pei dev 数据 结构 ，rcs DUPE In] Cokes Per Ta Hh E E o 
resource 结构 。 分 配 时 依次 扫描 PCI 桥 所 在 总 线 的 4 个 地 址 区 辐 。 
s2933- 


分 配 的 大 原则 是 地 址 的 范围 必须 相符 (185 行 ), 并 且 类 型 (存储 器 地址 或 VO 地 址 ) 必 须 相 符 (187 49). 
其 次 ， 是 否 “可 预 取 ” 也 最 好 能 一 致 。 昌 不 然 ， 如 果 所 要 求 的 区 间 用 于 “可 预 取 ”的 存储 器 ， 而 总 线 
上 的 区 间 本 来 是 供 不 可 预 取 的 寄存 器 使 用 的 ， 部 么 虽然 有 些 勉 强 ， 也 还 不 失 为 一 个 选择 (191 和 193 行 ， 


Linux 内 核 源 代 码 情 景 分 析 《 下 册 ) 


到 过 来 就 不 行 了 )。 


如 果 在 父 节 点 中 找到 了 能 够 满足 要 求 的 区 间 ， 则 函数 返回 指向 该 区 间 的 指针 (否则 为 0)， 说 明 所 需 
的 地 址 资源 是 有 保障 的 ， 所 以 就 通过 request_resource( ) 加 以 分 配 ， 这 个 函数 的 代码 在 kernel/resource.c 


中 


[pci init( ) > pcibios_init( ) > pcibios resource survey ( ) > pcibios allocate bus resources( ) > 
request. resource ( )] 


114 
115 
116 
117 
118 
119 
120 
121 
122 


落实 资源 分 配 的 过 程 涉及 队列 操作 ， 不 容许 受到 打扰 ， 所 以 必须 加 锁 。 有 具体 的 操作 则 由 


int request resource(struct resource *root, struct resource *new) 


{ 


} 


struct resource *conflict: 


write_lock(kresource lock); 

conflict = __ request resource (root, new); 
write unlock(&resource lock); 

return conflict ? -EBUSY : 0; 


. request resource( ) 完 成 ， 其 代码 也 在 同一 文件 中 : 


[pci init( ) > pcibios_init( ) > pcibios_resource_survey ( ) > pcibios allocate bus resources( ) > 
request resource ( ) > request resource( )] 


66 
67 


68 
69 
TO 
11 
72 
73 
74 
75 
76 
TT 
78 
79 
80 
81 
82 
83 


/* Return the conflict entry if you can't request it */ 
static struct resource * request resource (struct resource *root, 


{ 
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struct resource *new) 


unsigned long start = new-»start; 
unsigned tong end = new-»end; 
struct resource *tmp, **p; 


if (end € start) 
return root; 
if (start < root start) 
return root; 
if (end > root-»end) 
return root; 
p = &root-?child; 
for (pd 
tmp = *p; 
if (!tmp |! tmp->start > end) { 
new-2sibling = tmp; 
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84 *p = new; 

85 new->parent = root; 
86 return NULL; 

87 } 

88 p = &tmp->sibling; 

89 if (tmp->end < start) 
90 continue; 

9] return tmp; 

92 j 

93 |] 


这 里 的 参数 root 指向 总 线 的 某 个 resource 数据 结构 , 而 new 则 指向 PCI HF, BI 次 层 总 线 的 resource 
数据 结构 。 代 码 中 通过 - .个 for 循环 在 root 的 子 区 间 队列 中 为 new 找到 适当 的 位 置 ， 然 后 将 new 插入 
该 队列 中 。 如 果 发 现 new 与 已 经 存在 的 子 区 间 冲 突 ， 则 操作 失败 而 返回 与 其 冲突 的 区 间 指 针 。 

当 完成 了 对 pcibios_allocate_bus_resources( ) 的 递归 调用 时 ， 所 有 PCI 总 线 所 希 的 地 址 资源 痢 已 经 
分 配 好 了 。 但 是 , 读者 大 概 也 看 出 来 了 ， 除 对 寸 冲突 的 检验 以 外 ， 这 里 所 谓 “分配 ” 其 实 只 是 Ge 
后 追认 ”而 已 。 这 些 区 间 的 范围 本 来 就 是 从 PCI 桥 中 读 出 来 的 ， 现 在 也 并 未 加 以 改变 。 所 做 的 只 是 为 
这 些 区 间 建 立 起 了 resource 结构 ， 并 插入 到 整个 地 址 资源 树 中 的 其 个 位 置 上 ， 以 供 检验 冲突 乙 用 。 那 
么 ， 这 些 PCL 桥 是 怎么 知道 应 该 有 什么 样 的 窗口 的 呢 ? 这 是 由 BIOS RAIN, RULE, Duet 
有 必要 推倒 重 来 。 如 果 BIOS 半 未 设置 ， 那 也 不 难 通 过 扫描 已 经 建立 起 的 pci_bus 和 pci. dev 数据 结构 
统计 出 来 ， 或 者 在 扫描 、 枚 举 的 过 程 中 计算 出 来 。 

回 到 peibios_resource_survey( ) 的 代码 中 ， 接 着 就 可 以 为 所 有 的 PCI 设备 分 配 地 址 资源 了 ， 这 于 分 
两 趟 调用 pcibios_allocate_resources( ), 这 个 冰 数 的 代码 在 arch/i386/kernel/pci-1386.c 中 。 同样 ,所谓 “分 
配 ” 实 际 上 往往 只 是 追认 。 


[pci_init( ) > pcibios init( ) > peibios resource survey ( ) > pcibios allocate resources( )] 


210 static void init pcibios allocate resources(int pass) 


211. d 

212 struct pci dev *dov; 

213 int idx, disabled; 

214 ul6 command; 

215 struct resource *r, *pr; 

216 

217 pci for each dev(dev) | 

218 pci read config word(dev, PCI COMMAND, &command) ; 
219 for(idx = 0; idx < 6; idxt+) { 

220 r = &dev—resource[ idx] ; 

221 if (r- parent) /* Already allocated */ 
222 continue; 

223 if ({r->start) /* Address not assigned at all */ 
224 continue; 

225 if (r->flags & TIORESOURCE I0) 

226 disabled = !(command & PCI COMMAND I0); 
221 else 
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228 disabled = ! (command & PCI. COMMAND MEMORY) ; 

229 if (pass == disabled) | 

230 DBG( PCT: Resource %081x-%081x (f=%1x, d=%d, p=%d) \n”, 
231 r-2start, r->end, r->flags, disabled, pass); 

232 pr = pci find parent resource(dev, r); 

233 if (!pr || request resource(pr, r) < 0) 1 


234 printk(KERN ERR "PCI: Cannot aliocate resource region %d of device %s\n’, 
idx, dev-^slot name); 


235 /* We’ll assign a new address later */ 
236 r-^end -= r->start: 
ZO r->start = 0; 
238 } 
239 } 
240 } 
241 if (!pass) { 
242 r = &dev-^resource[PCT ROM RESOURCE] : 
243 if (r—>flags & PCI ROM ADDRESS ENABLE) { 
244 /* Turn the ROM off, leave the resource region, 

but keep it unregistered. */ 
245 U32 reg; 
246 DBG( PCI: Switching off ROM of %s\n”, dev-^slot name); 
241 r-^flags &- "PCI ROM ADDRESS ENABLE; 
248 pci read config dword(dev, dev-^rom base reg, &reg); 
240 pci write config dword(dev, dev-^rom base reg, 

reg & "PCI ROM ADDRESS ENABLE) : 

250 } 
251 } 
252 } 
253. 3] 


这 万 “个 对 所 有 pci_dev 数 据 结构 的 循环 。 对 十 每 -项 PCI 设 备 的 6 个 常规 区 间 ， 如 时 这 些 区 间 已 经 
生效 (可 以 接受 访问 ) 就 在 第 一 趟 扫描 (pass 为 0) 时 分 配 地 址 资源 ， 否则 就 在 第 - 趟 扫描 (pass 为 1) 时 分 配 。 
^ 充 ROM 区 间 则 只 在 第 一 趟 ， 央 参数 pass 为 0 时 如 以 处 理 。 

PCT 设备 的 这 些 区 间 有 几 种 可 能 。 第 一 种 是 凯 经 分 配 了 地 址 资源 ， 因 而 其 指针 parent 已 指向 其 父 
1 点， 对 这 种 节点 无 需 作 任何 处 理 ， 所 以 把 它 路 过 就 行 了 (222 行 )。 第 二 种 是 区 间 的 起 始 地 址 为 0， 这 
种 |X 间 战 者 是 本 来 就 不 需要 为 之 分 配 空 间 ， 或 者 是 山 知 其 父 节 点 暂时 不 能 满足 其 需要 ， 这 里 也 把 它 跳 
过 (224 行 )。 第 三 种 就 是 需要 分 配 地 址 资源 的 了 ， 如 果 通 过 pci_find_parent_resource( ) 发 现 这 部 分 地 址 
资源 已 经 包含 在 父 节点 的 资源 中 ， 那 就 可 以 通过 request resource( ) 分 配 了 ， 这 两 个 函数 的 代码 我 们 都 
已 在 前 面谈 过 。 WIL RR EIAS BE TE 74 BU FH bo a Mf EAST n A ROSE TE DU MB S d, 即 地 址 范围 不 符 
或 首发 生 了 冲突 ， 就 先 将 该 区 间 平 移 到 起 始 地 址 为 0 43877 (236-237 行 )， 这 些 区 间 的 起 始 地 址 需要 
加 以 变更 才 行 。 这 里 紫 说 明 ， 对 这 些 区 间 的 地 址 资源 分 配 之 所 以 失败 并 不 是 由 于 父 节点 中 的 资源 短缺 ， 
血 臣 因为 对 起 始 地 址 的 上 要求 不 能 满足 。BIOS 在 傅 定 父 节 点 的 窗口 大 小 时 是 经 过 计算 的 ， 加 上 对 窗口 位 
秆 的 对 齐 ， 父 节点 的 窗口 ~- 般 都 要 比 实际 的 需 此 上 大。 所 以 ， 只 要 允许 将 区 间 适 当 平 黎 ， 就 ， 定 能 分 配 
到 所 需 的 地 址 资源 。 
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对 于 ROM 区 间 ， 则 在 第 一 趟 扫描 时 予以 关闭 。ROM 区 间 一 般 只 是 在 初始 化 时 由 BIOS 或 具体 的 
设备 驱动 程序 使 用 ， 所 以 现在 可 以 关闭 了 。 但 是 其 地 址 资源 暂时 还 保存 着 ， 如 果 需 要 还 可 以 在 设备 驱 
HEFTE H. 
对 于 不 能 在 点 有 起 始 地 址 上 分 本 到 所 需 地 址 资源 的 区 间 ， 即 起 始 地 址 已 改 成 0 的 区 间 ， 要 通过 
peibios_assign_resources( ) 加 以 分 卫 ， 实 际 上 这 省 是 真 上 意 义 上 的 “分 配 ” 而 不 是 追认 。 这 个 函数 的 代 
码 在 arch/i386/kernel/pci-i386.c 中 : | 





[pci init( ) > pcibios init( ) > pcibios resource survey ( ) > pcibios assign resources( )] 





255 static void | init pcibios assign resources (void) 
256 — | 
257 struct pci dev *dev; 
258 int. idx; 
259 struct resource *r; 
260 
261 pci for each dev(dev) | 
262 int class ~ dev-»class >> 8; 
263 
204 /* Don' t touch classless devices and host bridges */ 
265 if (tclass .| class — PCI CLASS BRIDGE HOST) 
266 continue; 
267 
268 for(idx-0; idx<6; idxt+) { 
269 r = &dev->resource[idx] ; 
270 
271 /* 
272 * Don’t touch IDE controllers and 1/0 ports of video cards! 
273 */ 
274 if ((class — PCI CLASS STORAGE IDE && idx < 4) || 
215 (class == PCI CLASS DTSPLAY VGA && 
(r-*flags & IORESOURCE I10))) 
216 continue; 
277 
278 /* 
279 * We shall assign a new address to this resource, either because 
280 * the BIOS forgot to do so or because we have decided the old 
281 * address was unusable for some reason. 
282 */ 
283 if (!r—start && r—end) 
284 pci assign resource (dev, idx); 
; 285 } 
; 286 
: 287 if (pei probe & PCI ASSIGN ROMS) | 
288 r — &dev—^resource[PCI ROM RESOURCE]; 
289 r->end -= r-?start; 
290 r->start = 0; 
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291 if (r->end) 

292 pci assign resource(dev, PCI ROM RESOURCE); 
293 } 

294 } 

295  ] 


XP RE MRE for 循环 ,对 于 系统 中 的 所 有 PCI 设备 ， 只 要 这 个 设备 有 效 (类 型 字段 非 0)， 

并 且 不 是 PCI 桥 , 就 在 内 层 循环 中 检查 其 6 个 可 能 的 地 址 区 间 。 只 要 是 需要 分 配 地 此 资源 的 地 址 区 间 ( 起 
始 地 址 为 0 而 终点 地 址 非 0)， 便 通过 pci_assign_resource ( ) 为 其 分 配 总 线 地 址 ， 并 将 其 设置 入 具体 设 
备 的 配置 寄存 器 组 。 回 顾 一 下 前 面 pcibios allocate resources( ) 的 代码 ， 就 可 以 看 出 这 些 区 间 正 是 在 那 
里 没有 能 解决 的 区 间 。 当 时 之 所 以 没有 能 解决 是 因为 指定 了 起 始 地址 ， 现 在 则 放宽 了 条 件 。 

不 过 ，IDE 存储 设备 ( 便 盘 ) 的 前 4 个 区 间 和 VGA 显示 设备 的 VO 地 址 区 间 是 特例 ， 这 些 区 间 的 地 址 
不 需要 分 配 、 也 不 能 改变 (因为 已 经 在 用 了 )。 

KŠK pci assign resource ( ) 的 代码 在 drivers/pci/setup-res.c P: 


[pci init( ) > pcibios_init( ) > pcibios resource. survey ( ) > pcibios assign, resources( ) 
> pci assign resource( )] 


99 int 
100 pci assign resource (struct pci dev *dev, int i) 
101 { 
102 const struct pci bus *bus = dev->bus; 
103 struct resource *res = dev—->resource + i; 
104 unsigned long size, min; 
105 
106 size = res—>end - res-?start + 1; 
107 min = (res—>flags & IORESOURCE IO) ? PCIBIOS_MIN IO : PCIBIOS MIN MEM; 
108 
109 /* First, try exact prefetching match.. */ 
110 if (pci assign bus resource(bus, dev, res, size, 
min, IORESOURCE PREFETCH, i) < 0) { 
111 /* 
112 * That failed. 
113 * 
114 * But a prefetching area can handle a non-prefetching 
115 * window (it will just not perform as well). 
116 */ 
LIT if (!(res->flags & IORESOURCE PREFETCH) |; 
pci assign bus resource(bus, dev, res, size, min, 0, i) « 0) 
{ 
118 printk (KERN ERR 
"PCI: Failed to allocate resource %d for %s\n”, i, dev->name): 
119 return -EBUSY; 
120 } 
121 } 
122 
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123 DBGC((” got res[%lx:%lx] for resource %d of %s\n", res->start, 
124 res-»end, i, dev->name)) ; 

125 

126 return Q; 

1227  ] 


这 个 函数 通过 pei, assign. bus. resource( ) 为 给 定 设备 从 其 所 在 的 总 线 分 配 地 址 区 间 。 为 设备 上 的 每 
个 区 间 分 配 地 址 时 ， -方面 要 考虑 区 间 的 实际 大 小 ， 另 一 方面 对 其 位 置 也 有 所 限制 ， 对 于 VO 地 址 区 
间 其 起 点 不 得 低 于 PCIBIOS_MIN_IO， 对 于 内 存 地 址 区 间 则 不 得 低 于 PCIBIOS_MIN_MEM， 这 两 个 常 
数 均 定义 于 include/asm-i386/pci.h: 


12 #define PCIBIOS MIN IO 0x1000 
13 #define PCIBIOS MIN MEM 0x10000000 


就 是 说 ，VO 地 址 区 间 的 位 置 不 得 低 于 4KB， 而 内 存 地 址 区 间 的 位 置 不 得 低 于 256MB. 2377 m, 
对 于 地 址 区 间 还 有 个 是 耕 必 须 满 足 “ 可 预 取 ” 要 求 的 问题 ， 所 以 这 里 (110 行 ) 先 以 
IORESOURCE_PREFETCH 为 参数 调用 一 次 pci_assign_bus_resource( )， 表 示 要 求 在 “可 孔 取 ”方面 相 
符 。 若 不 能 满足 要 求 ， 则 根据 情况 再 以 0 为 参数 调用 一 -次 (117 行 )， 表 示 在 这 方面 不 相符 也 可 以 ， 但 这 
只 适用 于 设备 上 的 区 间 为 “可 预 取 ”， 即 用 于 人 存储 器 的 情况 下 ， 反 过 来 就 不 可 以 了 。 函数 
pci assign. bus, resource( ) 的 代码 也 在 drivers/pci/setup-res.c 中 : 


[pci_init( ) > pcibios_init( ) > pcibios_resource_survey ( ) > pcibios_assign_resources( ) 
> pci_assign_resource( ) > pci_assign_bus_resource( )] 


59 /® 

60 * Given the PC] bus a device resides on, try to 
61 * find an acceptable resource allocation for a 
62 * specific device resource.. 

603.  x*/ 

64 static int pci assign bus resource (const struct pci bus *bus, 
65 struct pci dev *dev, 

66 struct resource *res, 

67 unsigned long size, 

68 unsigned long min, 

69 unsigned int type mask, 

10 int resno) 

71 { 

12 int i; 

T3 

74 type mask |= IORESOURCE IO | IORESOURCE MEM; 
75 for Gi = 0 ¢ i < 4; i++) | 

76 struct resource *r = bus->resourceli]; 
77 if (r) 

78 continue; 

79 
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80 /* type mask must match */ 
81 if ((res->flags ` r->flags) & type mask) 
82 continue; 
83 
84 /* We cannot allocate a non-prefetching resource 
Crom a pre-fetching area */ 

85 if ((r-^flags & IORESOURCE  PREFETCH) && ! (res—>f] ags & IORESOURCE PREFETCH) ) 
86 continue; 
87 
88 /* Ok, try it out.. */ 
89 if (allocate resource(r, res, size, min, -1, size, 

pcibios align resource, dev) < 0) 
90 continue; 
9] 
92 /* Update PCI config space.  */ 
93 pcibios update resource(dev, r, res, resno); 
94 return 0; 
95 j 
96 return -EBUSY; 
97  ] 


从 哪里 分 配 地 址 区 间 呢 ?设备 在 哪 一 条 PCI EE D. BEM IEE WR” Aix eR HEX 
问 中 分 配 。 这 里 的 参数 bus 指向 总 线 的 pci bus 44944, if res 则 指向 -一 个 resource 数据 结构 ， 结 构 中 记 
载 着 对 目标 区 间 的 要 求 。 代 码 中 通过 一 个 for 循环 依次 尝试 该 总 线 的 4 个 可 能 的 区 间 。 如果 二 者 类 型 相 
符 ， 即 同 为 WO 地 址 或 同 为 内 存 地 址 ， 并 且 是 否 “ 可 预 取 ” 也 相符 (如 果 要 求 的 话 )， 就 通过 
allocate_resource( ) 为 其 分 配 总 线 地 址 (kernel/resource.c), 如 果 分 村 成 功 就 通过 pcibios_update_resource( ) 
将 其 设置 进 日 标 设备 。 


[pci init( ) > pcibios_init( ) > pcibios_resource_survey ( ) > pcibios_assign_resources( ) > 
pci assign resource( ) > pci assign bus resource( ) > allocate_resource( )] 


185 /* 

186 * Aliocate empty slot in the resource tree given range and alignment. 
187 */ 

188 int allocate_resource (struct resource *root, struct resource *new, 

189 unsigned long size, 

190 unsigned long min, unsigned long max, 

191 unsigned long align, 

192 void (kalignf) (void *, struct resource *, unsigned long), 
193 void *alignf data) 

194 { 

195 int err: 

196 

197 write lock(&resource lock); 

198 err = find resource(root, new, size, min, max, align, alignf, alignf data); 
199 if (err >= 0 && — request resource(root, new)) 
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200 err = -EBUSY; 

201 write unlock (&resource lock); 
| 202 return err; 

203 } 


参数 root 指向 一 个 resource WHAM, RAAT BA FI HEHE RI; 而 new 则 指向 另 
一 个 resource 数据 结构 ， 代 表 着 待 分 配 的 地 址 区 间 。 这 块 地 址 的 大 小 由 参数 size HAE, Scb 上. 定 是 2 
HERE. MEITE min 与 max ZP], align 则 与 边界 对 齐 有 关 。 对 昭 前 面 对 这 个 函数 的 调用 ， 就 可 以 
看 出 这 里 size 是 实际 的 区 划 大 小 , min 为 PCIBIOS_MIN_IO 或 PCIBIOS_MIN_MEM, max 为 Oxffffffff， 
而 align 与 size 相同。 还 有 , 参数 alignf 是 个 函数 指针 , 实际 上 指向 peibios align resource( ), alignf data 
则 实际 上 指 回 目标 疫 备 的 pci dev 数据 结构 ,注意 这 里 的 max 起 个 无 符号 整数 , 所 以 一 1 实际 上 是 全 1。 
这 些 参 数 原封 不 动 地 传 给 find_resource( )， 先 通过 这 个 函数 找到 符合 要 求 的 区 间 ， 其 代码 人 在 


kernel/resource.c H: 


[pci init( ) > pcibios init( ) > pcibios resource survey ( ) > pcibios assign resources( ) 
> pci assign resource( ) > pci assign bus resource( ) > allocate resource( ) 
> find resource( )] 


148 /* 
149 * Find empty slot in the resource tree given range and alignment. 
150 */ 


151 static int find resource(struct resource *root, struct resource *new, 
152 unsigned long size, 


153 unsigned long min, unsigned long max, 

154 unsigned long align, 

155 void Ckalignf) (void *, struct resource *, unsigned long), 
156 void *alignf data) 

be 4 

158 struct resource *this = root->child; 

159 

160 new->start = root-2start; 

161 fori) 1 

162 if (this) 

163 new->end = this->start: 

164 else 

165 new-»end = root-»end; 

166 if (new start < min) 

167 new->start ~ min; 

168 if (new->end > max) 

169 new->end = max; 

170 new >start = (new->start + align ~ 1) & (align 1); 
171 if (alignf) 

172 alignf(alignf data, new, size); 

173 if (new start < new>end & new->end - new->start + 1 >= size) | 
174 new->end = new->start + size - 1; 

175 return 0; 
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176 } 

177 if (!this) 

178 break; 

179 new->start = this->end + 1; 
180 this = this-^sibling; 

181 } 

182 return ~EBUSY; 

183 } 


有 具体 的 分 配 并 不 复杂 。 如 果 总 线 的 地 址 区 间 是 个 整体 ， 出 root 所 指 的 resource 数据 结构 是 个 叶 节 
点 ， 那 么 其 起 点 就 用 作 待 分 配 区 间 的 起 点 ， 然 后 将 起 点 按 要 求 进行 边界 对 齐 ， 并 作 必 要 的 调整 ， 再 来 
检查 区 间 的 大 小 。 否 则 ， 要 是 root->child 非 0， 则 需要 扫 撞 各 个 子 区 间 ， 从 中 发 现 足够 大 的 子 区 间 。 分 
配 成 功 时 函数 返回 0， 否 则 返回 一 EBUSY。 初 步 确定 了 分 配 的 起 始 地 址 ， 并 且 作 了 边界 对 齐 以 后 ， 可 
能 (如 果 alignf dE 0) 还 要 调整 :下 起 点 地 址 。 在 这 里 ， 用 来 调整 的 范 数 是 pcibios_align_resource( )， 其 代 
IÆ arch/i386/kernel/pci-i386.c "P: 


[pci init( ) > pcibios init( ) > pcibios_resource_survey ( ) > pcibios assign resources( ) 
> pci assign resource( ) > pci assign bus, resource( ) > allocate resource( ) 
> find. resource( ) > pcibios align resource( )] 


125 /* 

126 * We need to avoid collisions with mirrored’ VGA ports 
127 * and other strange ISA hardware, so we always want the 
128 * addresses to be allocated in the Ox000-0xOff region 

129 * modulo 0x400. 

130 * 

131 * Why? Because some silly external IO cards only decode 
132 * the Jow 10 bits of the IO address. The 0x00-Oxff region 
133 * is reserved for motherboard devices that decode all 16 
134 * bits, so it’s ok to allocate at, say, 0x2800-0x28ff, 
135 * but we want to try to avoid allocating at 0x2900-Ox2bff 
136 x which might have be mirrored at Ox0100-0x03ff.. 

137 */ 

138 void 


139 pcibios align resource (void *data, struct resource *res, unsigned long size) 
140 { 


14] if (res->flags & TORESOURCE TO) { 

142 unsigned long start = res—>start; 

143 

144 if (start & 0x300) { 

145 start = (start + Ox3ff) & "Ox3ff; 
146 res->start = start; 

147 } 

148 ) 

149 } 


- 242 . 


第 8 章 设备 驱动 

这 种 调整 只 是 针对 VO 地 址 的 (141 行 )。 为 什么 要 作 调 整 呢 ? 这 是 因为 在 早期 的 PC 机 中 规定 外 设 
接口 卡 只 能 使 用 4KB 以 下 的 IO 地 址 ， 而 其 中 oxoo--oxtt 义 是 保留 给 母 板 使 用 的 。 所 以 ， 早 期 的 接口 
卡 往往 只 对 VO 地 址 的 低 10 位 ， 即 4KB 的 范围 解码 ， 丛 是 同时 这 些 接口 卡 又 不 会 使 用 0x00 一 0xftt， 印 
bitg 和 bit9 为 0 的 这 段 区 间 。 央 此 ， 要 避免 使 用 地 址 中 bits 或 bito 为 非 0 的 填 些 地 址 ， 以 免 与 这 样 的 
接口 卡 冲 突 。 不 过 ， 实 际 上 PCI 设备 通常 都 将 寄存 器 映射 到 存储 器 空间 (而 不 是 VO 空间 )， 所 以 真正 证 
要 作出 这 种 调整 的 机 会 趾 不 多 的 。 

回 到 allocate_resource( ) 的 代码 中 ， 如 果 对 find_resource( ) 的 调用 成 功 了 ， 找 到 了 所 需 的 地 址 资源 ， 
就 要 进一步 通过 _ request_resourcel ) 将 代表 着 新 分 本 区 间 的 resource 结构 new 插入 root 的 child 队列 
中 。 我 们 已 在 前 面 看 过 这 个 通 数 的 代码 。 全 此 为 止 ， 这 种 “分 配 ” 还 只 是 “账面 ”上 的 ， 只 是 在 resource 





非 0 指针 。 

为 晶 标 设备 上 的 日 标 区 间 分 配 了 总 线 地 址 以 后 ， 便 返回 到 pci_assign_bus_resource( ) 中 ， 接 者 便 通 
X peibios update resource( ) 将 起 始 地 址 设置 到 目标 设备 中 ， 从 而 建立 起 地 址 有 映射。 这 个 函数 的 代码 在 
arch/i386/kernel/pci-i386.c H ; 


[pci init( ) > pcibios_init( ) > pcibios resource survey ( ) > pcibios assign resources( ) 
> pci. assign, resource( ) > pci assign bus resource( ) > pcibios update resource( )] 


97 void 

98  pcibios_update_resource (struct pci dev *dev, struct resource *root, 

99 struct resource *res, int resource) 

100 { 

101 u32 new, check; 

102 int reg; 

103 

104 new = res—>start | (res-^flags & PCl REGION FLAG MASK) ; 

105 if (resource < 6) { 

106 reg = PCI BASE ADDRESS 0 + 4*resource; 

107 } else if (resource == PCI ROM RESOURCE) 1 

108 res->flags |= PCL ROM ADDRESS ENABLE; 

109 new |- PCT ROM ADDRESS ENABLE; 

110 reg = dev-?rom base reg; 

111 ) else { 

112 /* Somebody might have asked allocation of a non-standard resource */ 

113 return; 

114 } 

115 

116 pci write config dword(dev, reg, new); 

117 pci read config dword(dev, reg, &check); 

119 if ((new ^ check) & ((new & PCI BASE ADDRESS SPACE IO) ? 
PCI BASE ADDRESS IO MASK : PCI BASE ADDRESS MEM MASK)) | 

119 printk(KERN ERR "PCI: Error while updating region " 

120 ^$s/*d (08x != %08x)\n”, dev->slot_name, resource, 

121 new, check); 
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122 } 
123 } 


这 里 的 参数 res 指向 月 标 设备 上 日 标 区 间 的 resource 数据 结构 ,其 中 的 字段 start 就 是 为 其 分 配 的 (起 


16 字 广 边界 对 齐 的 , 所 以 其 最 低 4 位 用 于 控制 日 的 ,这些 标志 位 来 自 res->flags 的 最 低 4 位 。 总 线 地 址 
的 设置 和 映射 的 建立 倒是 很 简单 的 ， 只 要 把 所 分 配 的 总 线 地 址 连同 标 虚 位 写 入 目标 设备 的 配置 寄存 器 
组 中 相应 区 间 的 寄存 器 就 行 了 。 这 里 116 行将 新 的 地 址 通过 配置 寄存 器 组 宇 入 目标 设备 ， 然 后 再 读 问 
来 加 以 验证 。 

不 过 ， 设 置 了 区 间 的 地 址 并 不 意味 着 这 个 区 闻 已 经 可 以 访问 了 。 配 置 寄存 器 组 中 的 命令 寄存 器 庄 
有 机 个 控制 位 ， 即 PCL COMMAND IO 和 PCI COMMAND_MEMORY， 就 好 像 是 两 个 总 和 开关 ， 分 别 
控制 者 设备 的 所 有 VO 地 址 区 间 利 存储 器 地 址 区 问 。 最 终 ， 还 要 把 这 央 个 控制 位 都 设 成 1 才能 使 这 些 
区 间 真 正 地 连接 到 PCI 总 线 上 。 我 们 看 到 ， 这 里 并 没有 走出 这 最 后 一 步 ， 实 际 上 是 留 给 了 具体 的 设备 
驱动 程序 。 

完成 了 对 所 有 设备 、 所 有 区 阅 的 地 址 设置 以 后 ， 逐 层 返 风 到 pci_init( |, Z83EZE MER p 
个 设备 调用 pci fixup device( )。 我 们 已 在 前 面 看 过 它 的 代码 ， 不 过 上 一 次 调用 时 的 参数 pass 为 
PCI FIXUP_HEADER， 进 行 的 是 对 从 设备 读 出 的 头 部 信息 的 修 止 : 而 这 一 次 为 PCL_ FIXUP_FINAL， 
是 对 设置 了 地 址 以 后 的 修正 。 


至 此 ， 对 PCI 总 线 的 初始 化 已 经 完成 ， 内 存 中 已 经 建立 起 代表 着 全 部 PCI 总 线 和 PCI 设备 的 各 十 
棵 (通常 只 是 一 棵 ) 树 ， 作 每 项 设备 的 每 个 地 址 区 间 都 已 有 了 总 线 地 址 。 这 样 ， 给 定 -一 项 设备 (更 确切 地 
说 是 :项 功能 ) 的 有 关 信 息 ， 例 如 设备 的 类 型 、 由 谁 制造 ， 就 可 以 通过 搜索 这 些 树 找 到 代表 着 此 项 设备 
的 pci dev 数据 结构 。 为 此 ， 内 核 提供 了 - -个 函数 pci_find_device( )， 其 代码 在 drivers/pci/pci.c +: 


96 struct pci dev * 
97 pci find device(unsigned int vendor, unsigned int device, 
const struct pci dev *from) 


98 { 
99 return pci find subsys(vendor, device, PCI ANY 1D, PCI ANY ID, from); 
100 ] 


这 个 函数 的 主体 是 pci_find_subsys( )， 其 代码 也 在 同 文件 中 ， 


63 struct pci dev * 
64 pci find subsys(unsigned int vendor, unsigned int device, 


65 unsigned int ss vendor, unsigned int ss device, 

66 const struct pci dev *from) 

67 { 

68 struct list head *n = from 2 from->global_list. next : pci devices. next: 
69 

70 while (n != &pci devices) { 

71 struct pci dev *dev = pci dev g(n); 

12 if ((vendor == PCI ANY TD || dev->vendor == vendor) && 
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73 (device == PCI ANY ID || dev->device == device) && 
74 (ss vendor == PCI ANY ID || dev->subsystem_vendor == ss vendor) && 
15 (ss device == PCI ANY TD |! dev—^subsystem device == ss device)) 
76 return dev; 
17 n = n-»next; 
78 } 
79 return NULL; 
80} 


当 PCL 总 线 LELARA R RAE BE CG PER Ethernet 接口 卡 ), 可 以 逐次 以 不 同 的 起 
点 from 调用 pci_find_device( )， 直 至 找到 所 有 这 些 设备 的 pei. dev 数据 结构 。 | 

如 果 关 心 的 不 是 由 谁 制造 ， 而 是 模块 的 功能 和 用 途 ， 则 可 以 道 过 pci find class, ) 寻 找 ， 其 代码 也 
fF. drivers/pci/pci.c FP: 


115 struct pci dev * 
116 pci find class (unsigned int class, const struct pci dev *from) 


l7 ( 

118 struct list head *n = from ? from->global list.next : pci devices. next; 
119 

120 while (n != &pci devices) { 

121 struct pci dev *dev = pci dev gt{n); 
122 if (dev->class == class) 

123 return dev; 

124 n = n-next; 

125 } 

126 return NULL: 

pr^ g 


找到 了 目标 设备 的 pei, dev 数据 结构 ， 就 可 以 通过 其 指针 数组 resource, ] 找 到 各 个 总 线 地 址 区 闻 的 
resource 结构 ， 从 侧 取 得 备 个 区 问 的 总 线 地 址 。 在 这 个 基础 上 ， 通 过 __ioremap( ) 为 这 些 区 间 建 立 起 虚 
拟 地 址 的 映射 ， 再 通过 设备 的 命令 寄存 器 打开 其 所 有 区 问 ， 就 可 以 像 访问 内 存 空间 一 样 地 访问 这 些 区 
间 了 。 此 外 ， 如 果 日 标 设备 共有 中 断 功 能 ， 则 还 要 进 - … 步 落实 好 中 渐 请 求 线 。 内 核 为 设备 驱动 程序 提 
供 了 一 个 inline KA pcibios enable device( ) 米 帮助 驱动 程序 做 这 些 事 情 ， 其 代码 在 include/linux/pci.h 


1042 int pcibios enable device (struct pci dev *dev) 


1043 { 

1044 int err; 

1045 

1046 if ((err = pcibios enable resources (dev)) < 0) 
1047 return err; 

1048 pcibios enable irq(dev); 

1049 return 0; 

1050 } 
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首先 就 是 通过 pcibios enable resources( ) 打 开设 备 的 各 个 地 址 区 间 ， 其 代码 在 
arch/i386/kernel/pci-i386.c F: 


[pcibios enable device( ) > pcibios enable resources( )] 


306 int pcibios enable resources (struct pci dev *dev) 


307 |{ 

308 ul6 cmd, old cmd; 

309 int idx; 

310 struct resource *r; 

311 

312 pci read config word(dev, PCI COMMAND, &cmd); 

313 old cmd - emd; | 

314 for(idx-0; idx<6; idx++) { 

315 r = &dev—resource[idx]; 

316 if (!r->start && r-»end) { 

317 printk(KERN ERR “PCI: Device %s not available because of resource 
. collisions\n”, dev->slot_name) ; 

318 return -EINVAL; 

319 } 

320 if (r- flags & IORESOURCE IO) 

321 cmd |- PCI COMMAND IO; 

322 if (r->flags & IORESOURCE MEM) 

323 cmd |- PCI COMMAND MEMORY; 

324 } 

325 if (dev->resource[PCI ROM RESOURCE]. start) 

326 cmd |= PCI COMMAND MEMORY: 

327 if (cmd != old cmd) { 

328 printk(”PCI: Enabling device %s (%04x -> %04x)\n”, 

dev->slot_name, old cmd, cmd); 

329 pci write config word(dev, PCI COMMAND, cmd); 

330 ) 

331 return 0; 

332 } 


这 段 代 码 很 简单 ， 我 们 就 个 多 加 解释 了 。 

接着 是 对 中 断 请 求 线 的 处 理 ， 目 的 是 要 搞 清楚 该 设备 的 中 断 请 求 最 终 连接 到 了 中 有 断 控制 器 的 哪 一 
条 输入 线 ， 这 样 才 能 正确 地 登记 其 中 断 服 务 程序 。 丽 数 pcibios enable irq( ) 的 代码 在 
arch/i386/kernel/pci-irg.c 中 : 


[pcibios_enable_device( ) > pcibios_enable_resources( )] 


613 void pcibios enable irq (struct pci dev *dev) 


614 { 

615 u8 pin; 

616 pci read config byte(dev, PCI INTERRUPT PIN, &pin); 
617 if (pin && !peibios lookup irq(dev, 1) && !dev->irg) { 
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618 char *msg; 
619 if (io apic assign pci irqs) 
620 msg = ^ Probably buggy MP table. ^; 
621 else if (pci probe & PCI BIOS TRQ SCAN) 
622 msg = e 
623 else 
624 msg = ^ Please try using pci-biosirq. '; 
625 printk (KERN WARNING 
"PCI: No IRQ known for interrupt pin %c of device %s. %s\n", 
626 7A’ + pin - 1, dev—^slot name, msg); 
627 } 
628  ] 


这 里 的 617 行 表示 : 如 果 从 寄存 器 PCI INTERRUPT. PIN 读 出 的 数值 非 0， 就 说 明 设 备 具有 中 断 
功能 ， 因 此 调用 pcibios lookup. ira( ) 寻 找 其 中 晰 请 求 线 的 去 问 。 要 十 这 个 函数 正常 返回 ， 但 dev->irq 
仍 为 0， 那 就 说 明 有 问题 了 。 

前 面 , 在 pcibios_fixup_irqs( ) 中 也 曾 对 所 有 设备 逐个 地 调用 过 pcibios_lookup_irq( )， 妆 时 的 第 二 个 
调用 参数 为 0， 表 示 如 果 其 中 断 请 求 线 尚 木 连接 就 留 着 髓 说 。 向 现在 ， 则 第 二 个 调用 参数 为 1， 表示 若 
尚未 连接 就 要 选择 一 个 合适 的 对 象 并 完成 连接 。 为 什么 要 把 这 一 步 留 到 现在 呢 ? 一 方面 这 是 “lazy 
computaion”, 插 在 总 线 上 的 设备 末 必 就 是 实际 要 用 的 , 如 果 花 费 了 代价 而 实际 上 并 不 使 用 是 一 种 浪费 ， 
所 以 留 到 具体 设备 (也 许 是 可 安装 模块 ) 初 始 化 的 时 候 再 米 处 理 是 合理 的 。 万 ”方面 ， 喝 为 重 归 的 是 ， 当 
时 在 循环 尚未 结束 之 前 并 不 知道 系统 中 到 底 有 多 少 设备 连 在 同 … 条 PCI 中 断 请 求 线 上 ， 也 不 清楚 中 断 
控制 器 的 各 条 输入 线 的 负荷 ， 因 而 不 易 作出 真正 合理 的 选择 ; 而 现在 ， 则 显然 可 以 作出 更 合理 的 选择 
T. 我们 再 看 一 下 pcibios_lookup_irq( ) 有 关 的 两 个 片段 (arch/i386/kernel/pei-irg.c): 


[pcibios_enable_device( ) > pcibios enable resources( ) > pcibios_lookup_irq( )] 


442 /水 

443 * Find the best IRQ to assign: use the one 

444 * reported by the device if possible. 

445 */ 

446 newirq = dev-^irq; 

441 if (Inewirq && assign) { 

448 for (120; i < 16; i++) 1 

449 if (! (mask & (1 << i))) 

450 continue; 

45] if (pirq penaltyfi] € pirq penalty[newirq] && 


452 lrequest_ira(i, pcibios test irq handler, SA SHIRQ, “pci-test”, dev)) { 
453 free irq(i, dev); ， 


454 newirg = i; 

455 } 

456 } 

457 } 

458 DBG(” -> newirq-*d', newirg) ; 
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459 

477 } else if (newirq && r— set && (dev->class >> 8) != PCI CLASS DISPLAY VGA) { 
478 DBG(” -> assigning IRQ %d”, newirq); 

479 if (r->set (pirg router dev, dev, pira, newirg)) { 

480 eisa set levcl irq(newirg); 

481 DBG(” ... OK\n”); 

482 msg = “Assigned”: 

483 irq = newirq; 

484 } | 

485 } 


XX PY Fr BE A? RR A ERA, A HE UTI eB), PELA RAS ERY 
HAWE. i, Xt 452 行 却 需要 作 一 点 说 明 。 对 于 中 断 控 制 器 一 侧 候选 的 中 断 清 求 输入 线 ， 这 申通 
过 request_irq( )( 见 第 3 章 ) 试 着 登记 一 个 空 函数 pcibios_test_irq_handler( ), 如 果 成 功 再 通过 free_irq( ) 
将 其 撤销 ， 这 样 就 保证 了 以 后 登记 真正 的 中 断 服务 程序 时 也 能 成 功 。 否 则 ， 如 果 试 登记 失败， 就 不 能 
把 这 条 输入 线 作为 候选 。 代码 中 还 调 帮 了 一 个 消 数 eisa_set_level_irq( ), 那 完 企 是 因为 硬件 的 特殊 要 求 ， 
我 们 就 不 关心 了 。 


有 些 设备 的 情况 还 要 更 复杂 ， 所 以 内 核 中 又 提供 了 更 为 一 般 化 的 inline 函数 pci_module_init( ) (以 
及 与 之 有 关 的 RIRO 来 帮助 设备 驱动 程序 的 设计 和 实现 ， 读 者 可 参阅 本 章 第 9 节 “ 通 用 中 行 外 
部 总 线 USB”. 


8.5” 块 设备 的 驱动 


块 设备 站 文件 系统 的 物质 基础 。 而 文件 系统 ， 则 就 是 对 块 设备 上 所 存储 的 内 容 按 某 种 格式 如 以 组 
识 的 结果 。 因 此 ， 对 块 设 备 《 内 容 ) 的 访问 就 有 两 种 方式 。 一 种 是 忽略 对 其 内 容 的 组 织 ， 即 忽略 文件 
系统 的 存在 ， 而 将 其 看 成 个 记录 块 的 阵列 (数组 )， 另 ”种 则 遵循 文件 系统 的 组 织 ， 将 其 看 成 通过 各 
层 日 录 组 织 在 一 起 的 文件 集合 ， 而 每 个 文件 则 义 是 若干 记录 块 的 有 序 集合 。 由 才 “ 记 录 块 数组 ”和 “ 记 
录 块 的 有 序 集 合 ”部 是 有 序 的 ， 在 敢 辑 上 又 串 以 把 它们 看 成 线性 的 “ 字 节 流 ”。 以 书本 为 例 ， 我 们 可 以 
把 本 书 看 成 一 状 页 面 ， 按 页 号 找到 其 中 的 内 容 ;， 也 可 以 把 它 看 成 出 若干 章节 构成 ， 痢 按 第 几 章 第 几 
节 找 到 其 内 容 。 同 时 ， 我 们 可 以 说 第 几 页 上 的 第 几 个 字 是 什么 ， 力 至 整 本 书 〈 假 定 每 页 上 的 字数 是 固 
ERD 的 第 几 个 字 是 什么 ， 也 可 以 说 第 几 章 第 几 节 的 第 几 个 字 是 什么 。 当 打开 “个 代表 块 设备 的 文件 
可 把 ， 对 这 个 “ 块 设备 文件 ” 读 / 写 时 ， 我 们 把 这 设备 (的 内 容 ) 看 作 一 个 字 节 流 ， 而 忽略 对 其 内 容 的 组 
织 即 文件 系统 的 存在 。 同 样 ， 当 打开 一 个 存在 于 块 设备 上 的 普通 文件 时 ， 我 们 把 这 个 特定 的 文件 看 作 
一 个 字 节 流 ， 但 是 这 个 学 节 流 按 一 定 的 格式 和 规则 映射 到 块 设备 上 。 前 者 在 Unix 由 称 为 “原始 设备 多 
并 且 看 成 是 子 符 设备 ， 以 水 与 后 痢 的 区 别 。 这 一 点 让 Linux 中 有 了 改变 ， 块 设备 还是 块 设备 ， 只 要 是 
通过 设备 文件 (节点 ) 访问 就 是 “原始 ”的 。 而 在 安装 以 后 的 块 设备 上 .， 对 普通 文件 的 访问 则 自然 不 
能 忽略 文件 系统 的 组 织 了 。 这 里 还 此 说 时， 即使 是 对 “原始 ”设备 的 访问 ， 首 先 也 必须 在 文件 系统 中 
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找到 代表 着 这 个 设备 的 文件 节点 ， 在 这 个 过 程 中 当然 不 能 忽略 文件 系统 的 组 织 。 

在 “文件 的 读 与 妃 ” 一 和 中 ， 读 者 已 经 看 到 对 普通 文件 的 访问 怎样 变换 成 了 对 块 设 备 上 记录 块 的 
访问 ， 最 后 转化 成 对 函数 1L_rw_block( ) 的 调用 ， 从 这 个 冰 数 开始 就 进入 了 设备 层 。 我 们 在 这 一 节 中 继 
续 往 下 看 ， 不 过 在 此 之 前 还 要 先 看 下 对 “原始 ” 块 设备 文件 的 访问 ， 包 括 打开 文件 以 及 对 文件 的 读 / 
H, MBS EG, EEA ARE ARTE FRAR” BED, (RRA REE “OCR” IRIS 
其 内 容 义 与 设备 驱动 关系 很 紧密 ， 所 以 我 们 把 它 族 在 这 里 与 设备 豫 动 一 起 介绍 。 

先 看 块 设备 文件 的 打开 。 在 “系统 调用 mknod()" HPA CASH, 设备 文件 是 通过 mknod() 
创建 的 ， 创 建 时 将 设备 的 类 卉 〈 块 设备 或 字符 设备 )、 主 设备 号 、 次 设备 号 都 写 入 了 代表 该 文件 的 索引 
节点 中 。 这 个 索引 节点 本 身 也 存在 于 :个 块 设备 上 ， 有 具体 取决 十 该 设备 文件 节点 所 在 的 文件 系统 。 回 
时 它 又 代表 着 一 个 块 设备 。 . 背 可 以 相同 ， 也 可 以 不 同 。 打 井 文 件 时 ， 华 path_walk( ) 中 找到 该 设备 文 
件 节 点 所 在 的 日 录 ， 再 根据 日 录 项 的 指引 从 文件 系统 所 在 的 设备 上 读 入 这 个 索引 节点 ， 并 检验 它 的 模 
式 , 看 看 它 所 代表 的 是 普通 义 件 , 还 是 日 录 、 符号 连接 , 或 者 是 包括 设备 文件 在 内 的 特殊 文件 。 就 Ext2 
文件 系统 而 言 ， 这 部 分 攀 作 是 在 函数 ext2_read_inode( ) 中 进行 的 。 我 们 已 经 在 “从 路 径 名 到 目标 节点 ” 
一 节 中 列 出 了 这 个 函数 的 代码 ， 读 者 可 以 同 过 去 重读 -下 。 对 于 包括 设备 文件 在 内 的 特殊 文件 ， 这 个 
函数 调用 init_sperial_inode( ) 来 初始 化 为 这 个 文件 创建 的 inode 数据 结构 , 这 是 在 fs/ext2/inode.c 中 的 第 
1077 行 执行 的 : 


“961 void ext2 read inode (struct inode * inode) 

962 { 

1077 init special inode(inode, inode->i_mode, 

1078 1e32 to cpu(raw inode— i block[0])); 
1102 } 


这 里 inode 指向 为 该 文件 创建 的 inode 结构 ， 它 的 i. mode 字段 已 经 根据 从 设备 上 读 入 的 索引 节点 
中 的 有 关 信 息 设置 好 了 ， 放 raw_inode 则 指向 从 设备 上 读 入 的 索引 节点 ， 即 ext2_inode 数据 结构 。 RA] 
已 经 在 “系统 调用 mknod( )” 一 节 中 读 过 init_special_inode( ) 的 代 公 ， 此 处 再 列 出 其中 有 关 块 设备 的 几 
fT (fs/devices ): 


200 void init special inode (struct inode *inode, umode t mode, int rdev} 
201 | 


206 ) else if (S ISBLK(mode)) ( 

207 inode->i_fop = &def blk Lops; 
208 inode->i rdev = to kdev t(rdev); 
209 inode->i_bdev = bdget (rdev) ; 

210 ) else if (S TSFIFO(mode)) 

216 } 


经 过 了 这 几 行 ，inode 结构 中 的 指针 i_fop 就 指 癌 了 其 体 块 设备 的 file operations 数据 结构 。 辣 时 ， 
: 249. 


Linux 内 核 源 代码 情景 分 析 〔 下 册 ) 
inode 结构 中 还 有 一 个 专用 于 块 设备 的 指针 iLbdev， 指 向 代表 着 具体 块 设备 的 block device 数据 结构 。 
这 个 数据 结构 或 许 已 经 存在 于 内 存 中 ， 或 许 需要 创建 ， 由 设备 号 惟 -地 加 以 确定 。 在 “系统 调用 
mknod( )” 一 节 中 已 经 列 出 函数 bdget( MNT, RUAN file operations 数据 结构 定义 见 
fs/block_dev.c: 


709 struct file operations def blk fops = { 


710 open: bikdev_ open, 
TÀI release: bikdev close, 
712 llseek: block llseek, 
713 read: block read, 
114 write: block write, 
115 fsync: block fsync, 
116 |». ioct]: blkdev_ioctl, 
717 }; 


这 样 ， 就 为 对 blkdev_open( ) 的 调用 铺 半 了 道路 。 当 path_walk( ) 结 束 的 时 候 ， 目 标 文件 的 inode £5 
构 已 经 与 块 设备 的 文件 层 挂 上 了 钧 。 不 过 此 时 具体 block device 结构 中 的 指针 bd op 还 没有 设置 (如 
果 是 新 创建 的 block device 结构 ), 也 就 是 还 没有 与 具体 块 设备 的 操作 持 上 钩 , 那 要 到 进入 blkdev open() 
以 后 再 来 处 理 。 所 以 这 也 是 个 走 一 步 看 一 步 ,“ 摸 着 石 涉 过 河 ” 的 过 程 。 

最 后 ， 在 dentr open( ) 中 《 见 “ 文 件 的 打开 与 关闭 ”把 目标 文件 inode 结构 中 的 指针 f_ops 复制 到 
file 结构 中 f_op 指针 )， 并 通过 相应 file operations 结构 中 的 函数 指针 open 调用 blkdev_open( )。 这 个 
函数 的 代码 也 在 fs/block_dev.c FP: 


[sys open( ) > filp open( ) > dentry open( ) > blkdev open( )] 


644 int blkdev open(struct inode * inode, struct file * filp) 


645 { 

646 int ret = -ENXIO; 

647 struct block device *bdev = inode-?i bdev; 
648 down (&bdev->bd_sem) ; 

649 lock_kernel ( ) ， 

650 if (!bdev->bd_ op) 

651 bdev->bd_op = get blkfops (MAJOR(inode— i rdev)); 
652 if (bdev->bd op) | 

653 ret = 0; 

654 if (bdev->bd op-^open) 

655 ret = bdev->bd_op->open (inode, filp); 
656 if (!ret) 

657 atomic_inc (&bdev—>bd_openers) ; 

658 else if (!atomic_read (&bdev—>bd_openers) ) 
659 bdev->bd op = NULL; 

660 } 

661 unlock kernel ( ); 

662 up (&bdev—>bd_ sem) ; 

663 return ret; 
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664 } 


每 种 具体 的 块 设备 都 各 有 一 套 具 体 的 操作 ,因而 各 自 有 “个 类 似 于 file_operations 那样 的 数据 结构 ， 
称 为 block_device_operations， 其 定义 见 include/linux/fs.h: 


760 struct block_device_operations 1 


761 int (*open) (struct inode *, struct file *); 

762 int (trelease) (struct inode *, struct file *); 

763 int Ckiect]) (struct inode *, struct file *, unsigned, unsigned long) ; 
764 int (&check media change) (kdev t); 

765 int (*revalidate) (kdev 0); 

766 }; 


如 果 说 file operations 数据 结构 是 连接 虚拟 的 、 抽 象 的 vfs 文件 操作 与 具体 文件 系统 (或 文件 类 型 ) 
的 文件 操作 之 间 的 枢纽 ,那么 block, device, operations 就 是 连接 抽象 的 块 设备 操作 与 其 体 块 设备 类 型 的 
操作 之 间 的 枢纽 。 块 设备 的 类 型 是 由 主 设备 号 惟 “确定 的 ， 所 以 主 设备 号 惟一 地 确定 了 -- 个 具体 的 
block. device. operations 数据 结构 ， 而 blkdev_open( ) 的 任务 就 是 根据 主 设备 号 找到 相应 的 数据 结构 ， 并 
ff block. device 结构 中 的 指针 指向 这 个 数据 结构 ， 然 后 调用 由 这 个 数据 结构 中 的 函数 指针 open 所 指 同 
的 函数 (如 果 该 指针 不 是 NULL )。 如 果菜 种 设备 在 打开 它 的 时 候 不 党 要 做 任何 事 ， 那 么 它 的 
block_device_operations 结构 中 的 指针 open 就 是 NULL。 

寻找 具体 块 设备 类 型 的 block device operations 数据 结构 是 由 get blkfops( ) 完 成 的 ， 其 代码 在 
fs/block_dev.c 中 : 


[sys_open( ) > filp open( ) > dentry_open( ) > blkdev_open( ) > get blkfops( )] 


481 /* 

488 Return the function table of a device. 

489 Load the driver if needed. 

490 — x/ 

491 const struct block device operations * get blkfops(unsigned int ma jor) 
492 | 

493 const struct block device operations *ret = NULL; 
494 

495 /* major 0 is used for non-device mounts */ 

496 if (major && major < MAX BLKDEV) | 

497 #ifdef CONFIG KMOD 

498 if (!blkdevs[major].bdops) { 

499 char name[20]; 

500 sprintf(name, “block-major—%d", major); 
501 request module (name) ; 

502 } 

503 #endif 

504 ret = blkdevs[major]. bdops; 

505 } 

506 return ret; 
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内 核 中 有 一 个 数组 bikdevs| ]， 以 主 设备 号 为 下 标 就 可 以 通过 数组 中 的 表 项 找到 各 种 设备 的 
block device operations 数据 结构 。 这 个 数组 也 起 在 fs/block_dev.c 中 定义 的 ; 


468 static struct { 

469 const char *name; 

470 struct block device operations **bdops; 
4T1 } blkdevs [MAX BLKDEV] ; 


内 核 在 初始 化 时 根据 系统 的 配置 将 有 关 块 设备 的 block_device_operations 结构 连同 设备 名 -起 登记 
入 数组 中 的 相应 表 项 。 这 样 ，get_blkfops( ) 只 要 以 主 设备 号 为 下 标 就 可 以 找到 给 定 设备 的 这 个 数据 结构 
了 《 见 代码 中 的 第 504 行 )。 值 得 注意 的 是 ， 如 果 内 核 支持 可 安装 模块 ， 那 么 即使 内 核 在 初始 化 时 没有 
登记 某 种 块 设备 , 也 可 以 在 需要 时 通过 reguest_module( ) 把 用 米 支持 该 种 设备 的 代码 和 数据 结构 安装 进 
来 。 对 这 种 模块 的 命名 有 个 规则 ， 那 就 是 “block-major-" 加 上 具体 设备 的 主 设备 号 〈 见 代码 500 4). 

在 这 里 我 们 假定 所 用 的 块 设备 为 IDE 硬盘 ， 央 为 这 是 最 常用 的 。 在 PC 机 上 最 多 可 以 有 主 、 次 

(primary/secondary) 两 个 IDE 接口 ， 等 个 IDE 接口 义 可 以 支持 士 、 从 (master/slave) 共 两 个 IDE 硬 

盘 ， 所 以 最 多 可 以 有 4 个 IDE 硬盘 (包括 光 捞 )， 其 中 第 一 个 IDE 接口 上 主 硬 伪 的 主 设备 号 为 3 (其 余 
硬盘 的 主 设备 号 依次 为 22、33 和 34).IDE 硬盘 都 带 有 内 装 的 控制 器 (IDE 为 Integrated Drives Electronics 
的 缩写 )， 所 以 只 需要 “接口 ”而 并 不 需要 “控制 卡 ”。 在 过 去 的 十 年 中 ， 这 种 硬盘 有 了 很 大 的 发 展 ， 
以 至 于 早期 IDE 硬盘 所 用 的 block_device_operations 数据 结构 hd. ops 已 经 不 适用 于 新 型 的 IDE MR, 
而 只 好 另外 定义 新 的 数据 结构 ide_fops， 其 定义 在 drivers/ide/ide.c T: 


3492 struct block device operations ide fops[ ] = || 


3493 open: ide_open, 

3494 release: ide_release, 

3495 ioctl: ide_ioctl, 

3496 check media_change: ide_check_media_change, 
3497 revalidate: ide revalidate disk 

3498 H 


注意 ， 这 里 说 的 是 定义 新 的 数据 结构 ， 而 个 是 数据 结构 类 型 .之 所 以 定义 新 的 数据 结构 是 因为 有 了 
一 组 新 的 函数 。 实 际 上 ， 这 里 定义 的 是 一 个 结构 数组 ， 只 是 数组 中 只 有 一 个 表 项 。 这 样 就 为 将 来 预 贸 
下 进一步 的 发 展 空间 。 

回 到 blkdev_open() 的 代码 中 。 至 此 ， 我 们 已 经 把 对 抽象 的 “ 块 设备 文件 ”的 操作 逐 层 地 具体 化 为 
对 块 设备 的 操作 。 但 是 “很 设备 ”还 是 个 抽象 的 概念 ， 还 需 此 进 - 步 上 基体 化 ， 这 就 需 些 进入 为 IDE i 
dti Gt BRE T. SLE, block device 结构 中 的 指针 bd op 已 经 指向 新 型 IDE MAH 
block device operations 结构 ide_fops， 而 其 中 的 指针 open 又 指向 ide_open(), ATLA eG blkdev_open( ) 
代码 中 的 655 行 就 通过 这 个 指针 调用 ide_open( )， 其 代码 在 drivers/ide/ide.c F: 


[sys_open( ) > filp open( ) > dentry_open( ) > blkdev_open( ) > ide open( )] 
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static int ide_open (struct inode * inode, struct file * filp) 
{ 

ide drive t *drive; 

int rc; 


if ((drive = get info ptr(inode—^i rdev)) == NULL) 
return -ENXIO; 
MOD TNC USE COUNT; 
if (drive->driver == NULL) 
ide driver module( ); 
&ifdef CONFIG KMOD 
if (drive->driver == NULL) { 
if (drive->media == ide disk) 
(void) request module (’ ide-disk”) ; 


if (drive->media == ide cdrom) 
(void) request module (”ide-cd’) ; 
if (drive->media == ide tape) 


(void) request module(^ide-tape"); 
if (drive->media == ide floppy) 
(void) request module("ide-floppy^); 
j 
Hendif /* CONFIG KMOD */ 
while (drive->busy) 
sleep on(&drive-^wqueue); 
drive-^usaget*; 
if (drive->driver !- NULL) | 
if ((rc = DRIVER(drive)-^open(inode, filp, drive))) 
MOD DEC USE COUNT; 
return rc; 
j 
printk (%s: driver not present\n”, drive->name) : 
drive-»usage--; 
MOD DEC USE COUNT; 
return -ENXIO; 
j 


数据 结构 ide ops[ ] 中 提供 了 对 IDE 硬盘 操作 的 函数 跳 转 表 , 但 是 对 其 休 IDE i c HO ERIT RUIT 


关 共 体 设备 的 许多 数据 ， 需 要 有 个 具体 设备 的 “控制 块 >， 这 就 是 ide_drive_t 数据 结构 ， 有 关 的 定义 在 


include/linux/ide.h 上 ， 


257 
258 
259 
260 
261 
262 
263 


/* 
* Now for the data we need to maintain per-drive: ide drive t 


*/ 


#define ide scsi 0x21 
Bdefine ide disk 0x20 
#define ide optical Ox7 
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Hdefine ide cdrom 0x5 
Hdefine ide_tape Oxl 
Hdefine ide floppy 0x0 


typedef union { 
unsigned all : 8; 
struct { 
unsigned set geometry 
unsigned recalibrate 
unsigned set multmode 
unsigned set tune : 1; 
unsigned reserved : 4; 
} b; 
} special t; 


typedef struct ide drive s | 
request queue t queue; 
struct ide drive s *next; 
unsigned long sleep; 
unsigned long service start; 
unsigned long service time; 
unsigned long timeout; 
special t special; 
byte keep settings; 
byte using dma; 
byte waiting for. dma; 
byte unmask; 
byte slow; 
byte bswap; 
byte dsc overlap; 
byte nicel; 
unsigned present 1 
unsigned noprobe : 1: 
unsigned busy ] 
unsigned removable 1 
unsigned forced geom E Ae 
unsigned no unmask : 1; 
unsigned no io 32bit els 
unsigned nobios E S. 
unsigned revalidate : 1; 
unsigned atapi overlap: 1; 
unsigned niceO0 : 1; 
unsigned nice2 : 1; 
unsigned dooriocking: 1; 


unsigned autotune : 2; 
unsigned remap O to 1: 2; 
unsigned ata flash : 1; 
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/* 


/* all of the bits together */ 


/* respecify drive geometry */ 
/* seek to cyl 0 * / 

/* set multmode count */ 

/* tune interface for drive */ 
/* unused */ 


request queue */ 


circular list of hwgroup drives */ 


/* 
/* 
/* 
/* 
J 5k 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/** 
/* 
/** 
/* 
/* 
/* 
/* 
/* 


/* 
/* 
/* 


sleep until this time */ 

time we started last request */ 

service time of last request */ 

max time to wait for irq */ 

special action flags */ 

restore settings after drive reset */ 

disk is using dma for read/write */ 

dma currently in progress */ 

flag: okay to unmask other irgs */ 

flag: slow data port */ 

flag: byte swap data */ 

flag: DSC overlap */ 

flag: give potential excess bandwidth */ 

drive is physically present */ 

from: hdx=noprobe */ 

currently doing revalidate disk( ) */ 

1 if need to do check media change */ 

1 if hdx-c,h,s was given at boot */ 

disallow setting unmask bit */ 

disallow enabling 32bit 1/0 */ 

flag: do not probe bios for drive */ 

request revalidation */ 

flag: ATAPI overlap (not supported) */ 

flag: give obvious excess bandwidth */ 

flag: give a share in our own bandwidth */ 

flag: for removable only: door 
lock/unlock works */ 

l=autotune, 2-noautotune, O=default */ 

O-remap if ezdrive, l-remap, 2=noremap */ 

l=present, O=default */ 
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byte scsi; /* O=default, l=skip current ide-subdriver 
for ide-scsi emulation */ 

byte media; /* disk, cdrom, tape, floppy, ... */ 

select_t select; /* basic drive/head select reg value */ 

byte eil /* “normal” value for IDE CONTROL REG */ 

byte rcady stat; /* min status value for drive ready */ 

byte mult count; /* current multiple sector setting */ 

byte mult req; /* requested multiple sector setting */ 

byte tune req; /* requested drive tuning setting */ 

byte io d2bit) /* 0216 bit, 1-32-bit, 2/3=32bit+sync */ 

byte bad wstat; /* used for ignoring WRERR STAT */ 

byte nowerr; /* used for ignoring WRERR STAT */ 

byte sect0; /* offset of first sector for DM6:DDO */ 

byte usage; /* current "open( )" count for drive */ 

byte head; /* “real” number of heads */ 

byte sect; /* "real" sectors per track */ 

byto bios head; /* BIOS/fdisk/LILO number of heads */ 

byte bios sect; /* BIOS/fdisk/LILO sectors per track */ 

unsigned int bios cyl; /* BIOS/fdisk/LILO number of cyls */ 

unsigned int cyl; /* “real” number of cyls */ 

unsigned long capacity; /* total number of sectors */ 

unsigned int drive data; /* for use by tuneproc/selectproc as needed */ 

void *hwif; /* actually (ide hwif t *) */ 

wait queue head t wqueue; /* used to wait for drive in open( ) */ 

struct hd driveid *id; /* drive model identification info */ 

struct hd struct *part; /* drive partition table */ 

char name [4]; /* drive name, such as “hda” */ 

void *driver: /* (ide driver t *) */ 

void *driver data; /* extra driver data */ 

devfs handle t de; /* directory for device */ 

struct proc dir entry *proc; /* /proc/ide/ directory entry */ 

void *settings; /* /proc/ide/ drive settings */ 

char driver req[10]; /* requests specific driver */ 

int last lun; /* last logical unit */ 

int forced lun; /* if hdxlun was given at boot */ 

int lun; /* logical unit */ 

int crc count; /* crc counter to reduce drive speed */ 

byte quirk list; /* drive is considered quirky if set for a specific host */ 

byte suspend reset; /* drive suspend mode flag, soft-roset recovers */ 

byte init speed; /* transfer rate set at boot */ 

byte current speed; /* current transfer rate sct */ 

byte dn; /* now wide spread use */ 


| ide drive t: 


代 但 作者 对 结构 中 各 个 字段 的 意义 和 作用 已 经 加 了 注释 ， 以 后 随 痢 代码 的 进展 还 会 变 得 更 加 清楚 。 


每 个 具体 的 IDE 磁盘 部 有 这 么 个 数据 结构 ， 函 数 get_info_ptr( ) 根 据 设备 与 找到 这 个 数据 结构 并 返回 


指向 它 的 指针 ， 这 个 函数 的 代码 在 drivers/ide/ide.c FP: 
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Linux ARBER aY KAN) 
[sys open( ) > filp open( ) > dentry_open( ) > bikdev_open( ) > ide open( ) > get. info ptr( )] 


1628 /* 

1629 * get info ptr( ) returns the (ide drive t *) for a given device number. 

1630 * [t returns NULL if the given device number does not match any present 
drives. 

1631 */ 

1632 ide drive t *get info ptr (kdev t i rdev) 

1633 | 

1634 int major = MAJOR(i rdev); 

1635 #if 0 

1636 int minor - MINOR(i rdev) & PARTN MASK; 

1637 Bendif 

1638 unsigned int h; 

1639 

1640 for (h = 0; h < MAX HWIFS; ++h) { 

1641 ide hwif t *hwif = &ide hwifs[h]: 

1642 if (hwif-^present && major == hwif->major) { 

1643 unsigned unit = DEVICE NR(i rdev); 

1644 if (unit < MAX DRIVES) | 

1645 ide drive t *drive = &hwif-^drives[unit]!; 

1646 #if 0 

1647 if ((drive->present) && (drive->part[minor]. nr sects)) 

1648 Helse 

1649 if (drive->present) 

1650 Hendif 

1651 return drive; 

1652 } 

1653 break; 

1654 } 

1655 } 

1656 return NULL; 

1657} 


内 核 中 有 个 数组 ide_hwifs[ ]， 数 组 的 每 个 元 素 者 是 一 个 ide_hwit t 数据 结构 ， 代 表 着 系统 中 的 一 
个 可 能 的 IDE 接口 〈 本 节 后 面 会 给 出 这 个 数据 结构 的 定义 )。 系 统 初始 化 时 如 果 检 测 到 A IDE 接口 ， 
就 把 相应 表 项 中 的 present 字段 设置 成 1。 癌 时 ， 这 种 数据 结构 中 义 有 个 ide_drive t 结构 数组 drives[ ]. 
初始 化 时 如 果 检 测 到 某 个 接口 上 有 位 柑 相 连 ， 斌 将 相应 ide_drive_t 结构 小 的 present 字段 也 设 成 1， 并 
根据 检测 到 或 从 系统 的 CMOS 芯片 中 恋 到 的 各 项 参数 设置 这 个 数据 结构 。 也 束 是 说 ，ide_hwif t 数据 
结构 是 对 IDE 接 山 的 描述 ,而 ide drive t 数据 结构 起 对 连接 在 具体 IDE 接口 上 的 “IDE 设备 ”的 描述 。 
例如 ， 如 果 在 系统 的 主 (primary)〉 IDE N 上 检测 到 有 主 / 从 两 个 磁 檬 相连 ， 号 把 这 两 个 做 盘 的 参数 分 
ALLA ide_hwifs[0] 中 的 drives[0] 和 drivesllj， 并 把 它们 的 present 字段 设置 成 1。 再 例如 ， 如 果 在 次 
(secondary)IDE 接口 上 连接 着 一 个 Mitsumi CDROM, 此 就 把 它 的 参数 十 入 ide_hwifs[1] 里 面 的 drives[0]， 
并 有 日 把 ide_hwifs[1] 中 的 宁 段 major 设置 成 MITSUMI CDROM_MAJOR 。 然 后 ， 当 需要 时， 就 由 
get_info_ptr( ) 根 据 主 疫 备 与 在 ide_hwifs[ ] 中 搜索 ， 找 到 相应 的 接口 后 再 根据 次 设备 号 找 公 连 接 在 该 接 
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口上 的 具体 磁盘 的 ide drive t 数据 结构 。 

WE get_info_ptr( ) 找 不 公所 要 求 的 ide drive t. 结构 ， 就 说 明 系 统 中 不 存 企 机 应 的 愉 盘 ， 所 以 
ide, open( ) 返 冉 出 错 代码 一 ENXIO， 整 个 open ) 操 作 也 就 失败 了 。 

在 ide drive t 结构 中 (337 行 ) 有 个 void 指针 driver， 可 以 根据 不 同 的 要 求 指 向 个 同 的 ide driver t 
数据 结构 (注意 ide driver t 和 ide, drive t 是 央 种 不 同 的 数据 结构 )。 这 个 指针 在 系统 初始 化 过 程 中 从 
测 到 IDE 接口 上 的 设备 时 ， 根 据 没 备 的 类 型 而 设置 成 指向 不 同类 型 的 数据 结构 。 对 二 IDE 844 ‘ETA 
向 一 个 ide driver t 数据 结构 idedisk_driver。 同 类 的 数据 结构 还 有 idetape driver. ide cdrom, driver 以 
及 ide_floppy_driver， 分 别 代 表 着 可 以 连接 到 IDE 接口 上 -的 个 同类 型 的 设备 。 

如 果 遂 过 get_info_ptr( ) 找 到 了 所 需 的 ide drive t MHA, [He CES driver FRET ANE NULL, wt 
说 明 初 始 化 时 虽然 检测 到 了 硬 柑 的 存在 , 但 是 却 因 某 种 原因 而 未 能 完成 对 设备 以 及 数据 结构 的 初始 化 ， 
所 以 在 ide_open( ) 中 调用 ide_driver_module( ) 再 试 一 次 。 

另 一 方面 ， 如 果 内 核 支持 可 安装 模块 ， 那 也 可 能 是 因为 支持 具体 IDE 设备 的 杭 块 尚未 安装 或 已 被 
拆除 而 中 起, 所 以 试图 根据 其 体 的 设备 类 起 装 入 有 关 的 模块 。 由 ide_driver_module( ) 启 动 的 操作 足 弄 步 
的 ， 当 前 进程 睡眠 等 待 对 设备 的 操作 完成 (18$4 一 1855 行 ) 以 后 再 检查 ide, drive t 结构 中 的 指针 driver. 
如 果 已 经 变 成 非 0， 就 胡 示 沪 设 备 仍旧 与 系统 相连 ， 并 上 月 已 经 成 功 地 完成 了 初始 化 ， 所 以 可 以 通过 
ide driver t 结构 中 的 函数 指针 open 启动 特定 设备 的 打开 文件 操作 了 。 和 否则 ,要 是 ide drive t 结构 中 的 
指针 driver DÆ NULL, MEARE RKT 

如 上 所 述 ，IDE PERKY ide driver t 数据 结构 是 idedisk_driver， 其 定义 匈 ide_disk.c: 


711 /* 

712 * IDE subdriver functions, registered with ide.c 
713 */ 

714 static ide driver 1 idedisk driver = | 

715 "ide-disk', /* name */ 

716 .. IDEDISK VERSION, /* version */ 

717 ide disk, /* media */ 

718 0, /* busy */ 

719 l, /* supports dma */ 

720 0, /* supports dsc overlap */ 
721 NULL, /* cleanup */ 

122 do rw disk, /* do request */ 

123 NULL, /* end request */ 

124 NULL, /* ioctl */ 

725 idedisk open, /* open */ 

126 idedisk release, /* release */ 

721 idedisk media change, /* media change */ 
728 idedisk revalidate, /* revalidate */ 

129 idedisk pre reset, /* pre reset */ 

130 idedisk capacity, ^ /* capacity */ 

131 idedisk special, /* special */ 

732 idedisk_proc /** proc */ 

198 J 
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所 以 通过 其 指针 open 凋 用 的 函数 (18$8 行 ) 为 idedisk_open( )， 其 代码 也 在 ide disk.c 中 


[sys_open( ) > filp open( ) > dentry_open( ) > blkdev_open( ) > ide_open( ) > idedisk_open( )] 


478 static int idedisk open (struct inode *inode, struct file *filp, ide drive t *drive) 
479 { 
480 MOD INC USE COUNT; 
48] if (drive->removable && drive-»usage == 1) { 
482 check disk change (inode->i_rdev) ; 
483 /* 
484 * Ignore the return code from door lock, 
485 * since the open( ) has already succeeded, 
486 * and the door iock is irrelevant at this point. 
487 */ 
488 if (drive—>doorlocking && 
ide wait cmd(drive, WIN DOORLOCK, 0, 0, 0, NULL)) 
489 drive->doorlocking = 0; 
490 } 
491 return 0; 
492 } 


大 部 分 IDE HEA SP AMAR ET RAK, PES ER CIE EC PSF AT SR. MK 
并 不 意味 着 从 总 体 上 、 从 结构 上 说 这 一 步 是 多 余 的 。 例 如 ， 对 于 同属 IDE 设备 的 CDROM， 和 相应 的 函 
数 为 ide_cdrom_open( )， 那 就 是 实 实在 在 有 事情 要 做 的 。 

从 ide_open( ) 正 党 返回 ， 并 且 逐 层 返回 到 dentry open( ) 中 ， 整 个 打开 块 设备 文件 的 操作 就 基本 完 
RT. 回顾 一 下 这 整个 过 程 ， 就 是 从 抽象 的 vfs 层 文件 出 发 ， 逐 层 加 以 其 体 化 ， 找 到 相应 的 数据 结构 并 
把 这 些 数据 结构 联系 在 一 起 ， 层 层 打通 关节 的 过 程 。 

(1) file operations 结构 使 vfs 只 体 化 成 了 特定 的 文件 系统 或 文件 类 型 〈 块 设备 文件 )。 

(2) block device 数据 结构 使 代表 着 抽象 意义 上 的 文件 的 inode 结构 具体 化 成 了 “ 块 设备 ” 

(3) block device operations 结构 使 “ 块 设备 文件 ”操作 进步 上 共 休 化 成 了 “IDE 设备 ”操作 。 

(4) ide drive t 结构 将 笼统 的 “IDE 设备 ”具体 化 成 了 特定 种 类 的 IDE 设备 。 

(5) ide driver t 结构 将 某 种 IDE 设备 的 操作 具体 化 成 对 特定 IDE 硬盘 的 操作 。 

我 们 以 前 讲 过 ， 打 开 文 件 的 实质 就 是 使 “个 进程 与 文件 所 代表 的 对 象 建立 起 连接 。 上 述 逐 层 具体 
化 的 过 程 实际 上 三 是 乏 站 选择 前 进 方向 ， 直 全 打通 到 达 目 标的 道路 。 这 个 过 程 一 经 完成 ， 就 为 进一步 
的 文件 操作 做 好 了 准备 。 读 者 也 许 会 问 ， 对 普通 文件 的 访问 最 终 也 要 洛 实 到 具体 的 块 设 备 上 ， 但 是 为 
什么 在 那里 就 不 需要 打开 具体 的 块 设 备 文件 呢 ? 事实 上 ， 当 把 一 个 块 设备 安装 到 文件 系统 中 去 时 ， 也 
已 经 走 过 了 类 似 的 路 程 ， 在 文件 系统 中 的 安装 点 与 具体 块 设 备 之 问 建 立 起 了 连接 ， 只 不 过 这 种 连接 并 
个 是 建立 在 菜 个 特定 的 进程 与 设备 之 间 ， 几 没有 为 之 创建 起 file 结构 即 文件 操作 的 上 上下文 而 已 。 读 者 如 
果 回 过 去 看 一 下 上 灿 第 5 章 “ 文 件 系统 的 安装 与 拆卸 ”一 节 ， 就 会 发 坝 有 些 内 容 已 经 在 孝 里 提 到 过 ， 
只 不 过 那 时 候 我 们 的 注意 力 不 在 块 设备 的 细节 ， 内 而 没有 那么 深入 。 

现在 文件 已 经 打开 ， 我 们 以 系统 调用 read ) 为 例 来 看 有 对 块 设备 的 文件 操作 。 我 们 知道 ， 对 于 已 
经 打开 的 块 设备 义 件 ， 其 file 结构 中 的 file operations 结构 指针 指向 def_blk_fops， 而 从 这 个 结构 中 可 以 
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ed 


发 现 其 函数 指针 read 指向 block_read( )， 其 代码 在 fs/block_dev.c rh: 


[sys_read( ) > block. read( )] 


166 ssize t block read(struct file * filp, char * buf, size t count, 
loff t *ppos) 


167 { 

168 struct inode * inode = filp->f_dentry—>d_ inode; 
169 size_t block; 

170 loff_t offset; 

171 ssize t blocksize; 

172 ssize t blocksize bits, 1; 

173 size t blocks, rblocks, left; 

174 int bhrequest, uptodate; 

175 struct buffer head ** bhb, ** bhe; 

176 struct buffer head * buflist[NBUF]; 

177 struct buffer head * bhreq[NBUF]; 

178 unsigned int chars; 

179 loff t size; 

180 kdev t dev; 

181 ssize_t read; 

182 

183 dev = inode->i_rdev; 

184 blocksize = BLOCK_SIZE; 

185 if (blksize size[MAJOR(dev) ] && blksize size[MAJOR (dev) ] [MINOR (dev) ]) 
186 blocksize = blksize size[MAJOR (dev) ] [MINOR (dev) ] ; 
187 i = blocksize; 

188 blocksize bits - 0; 

189 while (i != 1) { 

190 blocksize_bitstt; 

191 i >= 1; 

192 } 

193 

194 offset = *ppos; 

195 if (blk size [MAJOR (dev) I) 

196 size-(loff t)blk size[MAJOR (dev) ] [MINOR (dev) ]<<BLOCK_STZE_BITS; 
197 else 

198 size = (loff t) INT MAX << BLOCK SIZE BITS; 
199 

200 if (offset > size) 

201 left - 0; 

202 /* size - offset might not fit into left, so check explicitly. */ 
203 else if (size - offset > INT MAX 

204 lefi = INT MAX; 

205 else 

206 left = size - offset; 

207 if (left > count) 

208 left = count; 
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209 if (left <= 0) 


210 return 0; 

211 read = 0; 

212 block = offset >> blocksize bits; 

213 offset &= blocksize-l; 

214 size >>= blocksize bits; 

215 rblocks = blocks = (left + offset + hlocksize - 1) >> blocksize bits; 
216 bhb = bhe = buflist; 

217 if (filp->f reada) { 

218 if (blocks € read ahead[MAJOR(dev)] / (blocksize >> 9)) 
219 blocks = read ahead[MAJOR(dev)] / (blocksize >> 9); 

220 if (rblocks > blocks) 

221 blocks = rblocks; 

222 

223 } 

224 if (block + blocks > size) { 

225 blocks = size - block; 

226 if (blocks == 0) 

221 return 0: 

228 } 

229 

230 /* We do this in a two Stage process. We first try to request 
231 as many blocks as we can, then we wait for the first one to 
232 complete, and then we try to wrap up as many as are actually 
233 done. This routine is rather generic, in that it can be used 
234 in a filesystem by substituting the appropriate function in 
235 for getblk. 

236 

237 This routine is optimized to make maximum use of the various 
238 buffers and caches. */ 

239 

240 do { 

241 bhrequest = 0; 

242 uptodate = 1; 

243 while (blocks) { 

244 —-blocks; 

245 *bhb = getblk(dev, block++, blocksize); 

246 if 《kbhb && !buffer uptodate(x*bhb)) | 

247 uptodate - 0; 

248 bhreq[bhrequest-4] = *bhb: 

249 } 

250 . 

251 if (++bhb == &buflist [NBUF]) 

252 bhb = buflist: 

253 

254 /* If the block we have on hand is uptodate, go ahead 
255 and complete processing. */ 

256 if (uptodate) 
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257 break; 

258 if (bhb == bhe) 

259 break; 

260 } 

261 

262 /* Now request them all */ 

263 if (bhrequest) { 

264 1l rw block(READ, bhrequest, bhreq) ; 
265 } 

266 

267 do { /* Finish off all I/0 that has actually completed */ 
268 if (*bhe) { 

269 wait on buffer(kbhe) ; 

270 if ('buffer uptodate(*bhe)) { /* read error? */ 
271 brelse (*bhe) ; 

272 if (++bhe == &buflist[NBUF]) 
273 bhe = buflist; 

274 left = 0; 

275 break; 

276 } 

211 j 

278 if (left < blocksize - offset) 

279 chars = left; 

280 else 

281 chars = blocksize - offset; 

252 *ppos += chars; 

283 left -= chars; 

284 read += chars; 

285 if (*bhe) { 

286 copy_to_user (buf, of fsett+ (*bhe) b. data, chars) ; 
287 brelse (*bhe) ; 

288 buf += chars: 

289 } else | 

290 while (chars-- > 0) 

291 put user (0, buf++) ; 

292 } 

293 offset = 0; 

294 if (++bhe == &buflist[NBUF]) 

295 bhe = buflist; 

296 } while (left > 0 && bhe !- bhb && (!*bhe || !buffer_locked (*bhe))) ; 
297 if (bhe == bhb && !blocks) 

298 break; 

299 } while (left > 0); 

300 

301 /* Release the read-ahead blocks */ 

302 while (bhe != bhb) { 

303 brelse (kbhe) ; 

304 if (++bhe == &buflist [NBUF]) 
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305 bhe = buflist; 
306 i5 

307 if (read) 

308 return -EIO; 

309 filp-^f reada = 1; 

310 return read; 

3li  ] 


读者 对 这 段 代 码 也 许 会 感到 似曾相识 ， 实 际 上 它 的 主体 确实 与 读 普 通 文件 时 调用 的 函数 
block read full page( ) 十 分 相似 《〈 见 上 册 第 5 章 “ 文 件 的 写 与 读 ” 一 节 )。 开 头 部 分 关 十 记录 块 大 小 、 
关于 预 读 的 计算 和 处 理 等 ， 读 者 在 以 前 都 看 到 过 类 似 的 代码 。 内 核 中 有 一 些 以 块 设备 的 主 设备 号 为 下 
标的 指针 数组 ， 都 是 在 drivers/block/ll rw. blk.c 中 定义 的 。 这 些 数组 中 的 每 个 指针 又 指向 另 一 个 以 次 设 
备 号 为 下 标的 数组 ， 这 样 在 远 辑 上 就 等 同 于 - 维 数 组 。 但 是 每 个 以 次 设备 吕 为 下 标的 数组 的 大 小 却 可 
以 不 同 ， 所 以 比较 节省 空间 。 这 时 (186 行 ) 用 到 的 数组 blksize size[ J[ ] 中 的 内 容 为 各 个 具体 设备 的 记录 
块 大 小 〈 见 “文件 系统 的 安装 与 拆卸 ”而 blk_size[ ]] 中 的 内 容 (196 行 ) 则 为 各 项 基体 设备 中 含有 1024 
字 节 记录 块 的 个 数 。 所 以 ，size 就 是 具体 设备 的 总 容量 (以 字 节 计 )， 而 left 则 为 该 设备 中 剩 下 末 读 的 
字 节 数 (206 行 )，208 行 又 进一步 将 其 调整 成 本 次 读 操作 剩 下 未 读 的 字 节 数 。212 行 根据 位 移 计 算出 起 
始 块 号 ,然后 213 行 把 整个 设备 内 的 位 移 调整 为 记录 块 内 的 位 移 , 215 行 又 计算 出 本 次 读 操作 中 此 读 的 
RA. Kin, PETMAN SRNR RAB, PARTE PH AIG RR blocks 作出 调整 。 

接着 就 是 针对 本 次 读 文件 操作 中 要 读 出 的 每 个 记录 块 的 do_while (95 T .. iA getblk( ) 根 据 设 备 
与 与 记 隶 块 号 的 杂凑 值 试图 从 相应 的 杂凑 表 队 列 中 找到 该 记录 块 的 缓冲 区 。 如 果 找 不 到 ， 就 为 之 分 配 
一 个 缓冲 区 并 将 其 指针 盾 入 一 个 buffer_head 结构 指针 数组 bhreq[ L 准备 从 设备 上 读 入 这 个 记录 块 ,我 
们 已 经 在 “ 交 件 的 写 与 恋 ” 一 节 中 读 过 这 个 阴 数 的 代 倘 ， 这 里 不 再 重复 ， 读 者 不 妨 回 过 去 重 温 … 下 。 
这 个 函数 根据 日 标 设备 的 设备 号 种 设备 上 的 逻辑 记录 块 写 ， 先 在 记录 块 的 傈 凑 表 队列 中 寺 找 ， 如 果 找 
到 就 简单 了 ， 不 用 从 设备 上 读 入 了 。 否 则 就 此 为 之 分 配 一 个 裕 亲 的 buffer head 数据 结构 连同 大 小 相符 
的 缓冲 区 (实际 上 是 缕 冲 页 面 的 一 部 分 )。 

在 “文件 的 写 和 读 ” 一 节 中 我 们 讲 过 ， 文 件 的 内 容 在 内 存 中 既 按 记录 块 缓冲 ， 又 按 页 面 缓冲 。 文 
件 的 inode 结构 中 维持 着 一 个 缓冲 页 面 队列 ， 当 需要 读 入 新 的 页 面 时 就 通过 create_page_buffers( ) 分 本 
一 个 存储 页 面 ， 再 把 这 个 页 而 划分 成 若干 绥 冲 区 ， 各 日 相当 于 一 个 记录 块 ， 同 时 分 配 相 应 数量 的 
buffer head 数据 结构 ， 并 使 它们 指向 这 些 缓冲 区 。 每 个 缓冲 区 部 有 个 buffer_head 数据 结构 ， 定 义 丁 
include/linux/fs.h: 


209 /* 

210 * Try to keep the most commonly used fields in single cache lines (16 
211 * bytes) to improve performance. This ordering should be 

212 * particularly beneficial on 32-bit processors. 

213 * 

214 * We use the first 16 bytes for the data which is used in searches 
215 * over the block hash lists (ic. getblk( ) and friends). 

216 * 

217 * The second 16 bytes we use for lru buffer scans, as used by 

218 * sync buffers( ) and refill freelist( ). -- sct 
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219 
220 
221 
222 
223 
224 
225 
226 
221 
228 
229 
230 
231 
232 
233 
234 
235 
236 
237 
238 
239 
240 
241 
242 
243 
244 
245 
246 
241 
248 


249 
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*/ 


struct buffer head | 


/* First cache line: */ 
struct buffer head *b next; /* Hash queue list */ 


unsigned long b blocknr; /* block number */ 

unsigned short b size; /* block size */ 

unsigned short b list; /* List that this buffer appears */ 
kdev t b dev; /* device (B FREE = free) */ 

atomic t b count; /* users using this block */ 

kdev t b rdev; /* Real device */ 

unsigned long b state: /* buffer state bitmap (see above) */ 


unsigned long b flushtime; /* Time when (dirty) buffer should be written */ 


struct buffer head *b next free;/* lru/free list linkage */ 

struct buffer head *b prev free;/* doubly linked list of buffers */ 

struct buffer head *b this pago;/* circular list of buffers in one page */ 
struct buffer head *b reqnext: /* request queue */ 


struct buffer head **b_pprev;  /* doubly linked list of hash-queue */ 


char * b data; /* pointer to data block (512 byte) */ 
struct page *b page; /* the page this bh is mapped to */ 

void (*b end io) (struct buffer head *bh, int uptodate); /* I/O completion */ 
void *b private; /* reserved for b end io */ 

unsigned long b rsector; /* Real buffer location on disk */ 


wait queue head t b wait; 


struct inode * b inode; 
struct list head b inode buffers; 
/* doubly linked list of inode dirty buffers */ 


1 


结构 中 的 指针 b data 指向 真正 的 “缓冲 区 ”， 即 相应 内 存 页 面 中 的 一 部 分 。 每 个 缓冲 区 通过 其 
buffer head 数据 结构 链 入 到 若 十 队列 中 ; 


(1) 
(2) 


(3) 


(4) 


通过 指针 b. next 和 双重 指针 b. pprev HEA — T PRERE BÀ JU]; 

通过 b next free 和 b. prev. free 链 入 一 个 双 链 的 LRU 队列 或 空闲 队列 ， 字 段 b_list 则 说 明日 
前 缓冲 区 在 哪 一 个 LRU 队列 中 ; 

通过 指针 b_this_page 将 属于 同一 页 面 的 缓冲 区 链 在 起， 并 通过 指针 b page Hm ATIE H f 
的 page 数据 结构 ; 

通过 队列 头 b_ inode_buffers 链 入 所 属 文件 的 inode 数据 结构 ,并 通过 指针 b_inode 指 问 该 inode 
数据 结构 。 





此 外 ， 结 构 中 的 b_dev 为 目标 设备 的 设备 号 ; 这 个 字段 是 在 通过 getblk( ) 分 配 缓冲 区 时 根据 调用 参 
数 设 置 的 ， 从 block_read( ) 的 代码 (183 和 245 行 ) 可 以 看 出 这 个 设备 号 米 日 inode A544 PHY 1 rdev. Ab 
就 是 inode 结构 所 代表 文件 所 在 的 设备 ， 当 所 代表 的 文件 为 块 设备 文件 时 ， 那 就 赴 目 标 设 备 的 设备 号 。 
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有 时候 日 标 设 备 只 是个 迪 辑 设备 ， 最 后 虎 落 实 到 男 一 个 设备 上 ， 此 时 川 即 一 个 字段 b rdev 用 于 实际 设 
备 的 设备 号 。 

对 演 通 义 件 而 言 ， 在 文件 层 上 的 操作 着 眼 十 页 面 。 相 比 之 下 ， 对 上 岂 设 备 文件 的 访问 则 直接 就 跟 缓 
冲 区 打 父 道 ,而 中 过 了 页 面 这 一 层 。 所 以 贞 接 就 通过 getblk( ) 搜 索 或 分 配 已 经 有 了 缓冲 区 的 buffer_head 
数据 结构 。 相 比 之 下 ，getblk( ) 是 个 比较 低层 的 函数 ， 主 要 用 于 块 设 备 上 为 文件 系统 的 组 织 和 管理 所 需 
的 记录 块 ， 即 所 谓 “meta data”， 也 可 以 说 是 供 文件 系统 “内 部 使 用 ”。 例 如 ， 在 对 普 道 文件 的 读 写 
中 ， 如 果 文 件 比 较 大 而 需要 间接 映射 ， 那 就 需要 找到 用 于 间接 映射 表 的 记录 块 ， 这 就 要 调用 getblk( ) 
了 《上 网 “文件 的 写 和 读 ” 一 节 中 ext2_alloc_branch( ) 的 代码 》。 又 如 ， 在 path_walk( ) 中 要 读 入 一 个 目 
录 ， 即 与 一 个 日 末节 点 相 联 系 的 记录 块 时 ， 也 要 调用 getblk( )。 这 些 记录 块 在 逻辑 上 都 不 属于 任何 一 个 
普通 文件 的 内 容 ， 所 以 相应 的 存储 页 面 不 持 入 任何 inode 结构 中 的 缓冲 页 面 队列 。 

回 到 block read( ) 的 代 代 中 ， 看 一下 调用 getblk( ) 时 (245 行 ) 使 用 的 参数 ， 就 可 以 发 现 ， 作 为 设备 上 
ARS AY block 正 是 前 面 通 过 线性 映射 得 到 的 文件 内 逻辑 块 号 。 也 就 是 说 二 者 是 相同 的 。 然 调 ， 对 于 
普通 文件 ， 从 文件 内 逻辑 块 号 到 设备 上 邮 辑 块 号 的 映射 却 是 相当 复杂 的 。 这 正 是 块 设备 文件 的 文件 层 
相 比 之 让 显得 很 单薄 、 很 简单 的 根本 原 央 。 

从 getblk( ) 返 问 到 block read( ) 以 后 ， 就 可 以 知道 是 否 真 的 需要 从 块 设备 上 读 入 某 个 记录 块 了 。 亿 
是 ， 每 次 只 从 块 设备 上 读 入 个 记录 块 是 很 不 经 济 的 。 块 设备 通常 是 磁盘 设备 ， 它 的 介质 在 旋转 ， 并 
且 划 分 成 “ 柱 耐 ”， 在 读 出 之 前 要 先 将 磁头 定位 。 由 于 块 设备 的 这 些 特 性 ， 成 片 地 读 出 逻辑 上 连续 或 
邻近 的 记录 块 比 分 次 读 出 个 别 的 记录 块 有 效 得 多 。 所 以 ，block_read( ) 通 过 数组 bhreq[ JA RERE 
入 请 求 ， 有 具体 的 办 法 是 : 

(1) 如 果 下 一 个 记录 块 ， 即 本 次 do-while 循环 中 的 第 … 个 记录 块 ， 不 需要 从 设备 上 读 入 ， 孝 么 这 

个 while 循环 马上 就 结束 了 《257 行 ) ， 此 时 bhrequest 为 0， 所 以 跳 过 11_rw_block( ) 不 从 设 
ALA. KH buflist[ ] 用 来 收集 和 积累 所 需 的 记录 块 缓冲 区 ( 见 216 行 和 245 行 )， 其 路 有些 
不 需要 从 没 备 上 读 入 (如 果 246 行 的 条 件 能 满足 )， 有 些 则 需要 从 设备 上 读 入 。 

Q) RZ, WREX do-while 循 坏 中 的 第 个 记录 块 需要 从 设备 | 读 入 ， 那 就 要 通过 bhreq[ 1A! 
办 起 成 片 的 读 入 请 求 ,但 不 超过 数组 buflist[ ] 的 大 小 ,第 243 fT 38 260 行 的 while 循环 的 作用 ， 
就 是 在 数组 buflist[ ] 中 积 崇 起 需要 从 快 设备 读 入 的 记录 块 缓 剖 区， 同时 在 bhreq ] 中 积累 起 成 
片 的 读 入 请 求 ， 直 至 把 buflistf LAER blocks ART 0 为 止 。 对 数组 buflistf ] 是 按 循 坏 组 
证 区 的 方式 使 用 的 ( 见 251 一 252 行 以 及 258—259 fT), &ÁGÉEA, 243 行 的 while 循环 时 bhb 
和 bhe 相同 ， 开 始 循 坏 以 后 ， 当 . :者 再 次 相同 时 ， 就 说 时 buflist[ ] 中 已 经 填 满 了 (258 行 )。 积 
罕 了 成 片 的 记 冰 块 缓冲 区 以 后 ， 就 通过 ]L_rw_block( ) 居 动 块 设备 的 成 片 读 入 。 数 组 bhreq[ ] 
的 大 小 与 buflistf 1 相同 ， 在 最 环 的 情况 下 所 有 的 缓 州 必 都 需要 从 设备 上 读 入 。 但 也 可 能 有 几 
个 绥 冲 区 不 雷 要 读 入 ， 从 而 不 出 现在 bhreqf ] 中 。 

(3) Sn. 道 过 个 内 层 do while 循环 (267 行 ) 处 理 butlist[ ] 中 积累 起 的 下 一 片 缓 冲 区 ， 处 理 完 以 
上 后 又 回 到 外 层 do-while 循 坏 的 开头 (240 行 )， 直 至 全 部 完成 。 

至 此 ， 对 块 设备 文件 和 对 普通 文件 的 读 操 作 终 士 殊途同归， 都 归结 成 了 对 1L_rw_block( ) 的 调用 ， 
这 才 真 下 进入 了 设备 驱动 层 。 顾 名 电 义 ，1Lrw_block( EHE "iE Air. 

类 似 地 ， 对 块 设备 的 号 操作 block_write( ) 最 终 也 是 对 1. rw. block( ) 的 调用 。 不 过 央 设 备 的 写 操作 
各 第 震 此 先 从 设备 上 读 入 一 个 记录 块 ， 加 以 修改 以 后 再 把 它 写 同 去 。 我 们 把 block write AIH RA 
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读者 。 

在 “文件 的 写 和 读 ” 一 节 中 ， 读 者 已 经 看 到 对 普通 文件 的 写 操作 并 不 直接 启动 块 设备 的 写 操作 ， 
而 是 在 改变 了 记录 块 缓冲 区 的 内 容 后 就 将 其 提交 给 一 个 内 核 线程 kfltushd (其 执行 程序 为 bdflush( )) 。 
RARR ER MUTERÉHR. ASE “Ph” SIRE EY RR 定 的 数量 (以 及 在 其 他 LER 
EF) 时 就 将 它 唤醒 ， 使 它 执 行 ARAA flush_dirty_buffers( )。 可 想 而 知 ，flush_dirty_buffers( ) 也 调用 
ll rw. block JJ Ios Reb I SE. AZ flush_dirty_buffers( ) 的 代码 在 文件 buffer.c 中 : 


[bdflush( ) > flush, dirty. buffers( )] 


250387 /* This is the only function that deals with flushing async writes 
2538 to disk. 


2539 NOTENOTENOTENOTE: we only need to browse the DIRTY lru list 
2540 as all dirty buffers lives only in the DIRTY lru list. 
2541 As we never browse the LOCKED and CLEAN iru lists they are infact 
2542 completly useless. */ 

2543 static int flush_dirty_buffers (int check flushtime) 

2544 d 

2545 struct buffer head * bh, *next; 

2546 int flushed = 0, i; 

2547 

2548 restart: 

2549 spin lock(&lru list lock): 

2550 bh = lru Jlist[BUF DTRTY]; 

2551 if (lbh) 

2552 goto out_unlock; 

2553 for (i = nr buffers typelBUF DIRTY]; i-- > 0; bh = next) { 
2004 next = bh->b_next_free; 

2555 

2556 if (!buffer dirty(bh)) | 

2557 |. refile buffer (bh) ; 

2558 continue; 

2559 ) 

2560 if (buffer. locked (bh) ) 

256] continue; 

2562 

2563 if (check flushtimo) | 

2564 /* The dirty lru list is chronologically ordered so 
2565 if the current bh is not yet timed out, 

2566 then also all the following bhs 

2567 will be too young. */ 

2068 if (Lime before (jiffies, bh->b_flushtime) ) 

2569 goto out unlock; 

2510 | else { 

2571 if (++flushed > bdf_prm. b_un. ndirty) 

2572 goto out_unlock; 

2573 } 
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2574 

2575 /* OK, now we are committed to write it out. */ 
2576 atomic inc(&bh-5b count); 
2577 spin unlock (&lru_ list lock); 
25178 1l rw block(WRITE, 1, &bh); 
2579 atomic dec(&bh->b count); 
2080 

2581 if (current—>need_resched) 
2582 schedule ( ) ; 

2583 goto restart; 

2584 } 

2585 out uniock: 

2586 spin unlock(&lru list lock); 
2587 

2588 return flushed; 

2589 } 


系统 中 有 个 缓冲 区 队列 的 数组 lru_listt ]， 这 个 数组 以 缓冲 区 的 类 型 为 下 标 ， 所 以 
lm_listfBUF_DIRTY] 就 是 其 中 已 经 “ 胜 ” 了 的 缓冲 区 的 队列 。 除 此 以 外 ， 数 组 中 还 有 BUF CLEAN. 
BUF LOCKED. BUF PROTECTED 等 队 州 。 所 有 的 绥 冲 区 都 按 LRU， 即 最 后 一 次 受到 访问 的 时 间 先 
后 排 在 其 中 的 某 个 队列 中 。 另 一 个 数组 nr_buffers_typef ] 与 之 对 应 ， 记 录 着 每 个 队列 的 大 小 。 这 个 函数 
扫描 脏 缓 冲 区 耻 列 ， 依 次 考察 队列 中 的 页 而 。 如 果 -… 个 页 而 虽然 在 BUF_DIRTY 队列 中 ， 但 是 实际 上 
已 经 不 再 是 “ 脏 ” 的 了 ， 那 就 通过 __refile_buffer( ) 把 它 转移 到 其 他 队列 中 。 如 果 一 个 缓冲 区 已 经 加 了 
锁 束 把 它 跳 过 。 否 则 ， 就 调用 lL_rw_block( ) 把 它 扎 入 设备 ， 写 入 设备 以 后 这 个 缓冲 区 就 变 成 干净 的 了 。 
不 过 ， 这 种 操作 不 一 定 是 对 队列 中 所 有 缓冲 区 的 ， 如 果 参 数 check flushtime JË 0， 则 表示 仪 对 已 经 超 
时 的 绥 冲 区 进行 处 理 。 由 寺 队 列 中 所 有 的 缓冲 区 者 是 按 “ 人 年龄 ”排列 的 ， 所 以 在 碰 到 第 v MAGEN 


行 ， 所 以 在 每 次 调用 1Lrw_block( ) 以 后 都 要 检查 是 否 需要 调度 (通常 都 是 从 系统 空间 返回 到 用 户 空间 的 
HUY Aa Er), BOR ig EL Eo) URL A] schedule ) 加 以 调度 .以 后 当 再 次 被 调度 运行 时 则 回 到 restart 处 (2548 
行 ) 重 新 扫描 整个 队列 ， 因 为 情况 可 能 已 经 改变 。 

此 外 ， 系 统 中 还 有 一 个 内 核 线程 kupdate( )， 它 管 的 事 更 宽 ， 包 括 超级 块 的 同步 、 索 引 节点 的 同步 ， 
也 包括 缓冲 区 的 同步 《 即 冲刷 )， 还 包括 对 tq disk 任务 队列 ( 见 第 3 章 ) 的 执行 。 它 也 道 过 
flush_dirty_buffers( ) 冲 刷 内 容 已 经 改变 的 缓冲 区 ， 所 以 最 终 也 是 调用 1_rw_block( )。 

由 此 可 见 ， 无 论 是 对 普通 文件 的 读 / 写 ， 还 是 对 块 设备 文件 的 读 / 写 ， 最 终 都 是 通过 1L_rw_block( ) 
完成 的 。 与 这 个 函数 并 立 的 还 有 Horw block locked( )， 这 两 个 函数 的 代 但 在 drivers/block/ll rw blk.c 
中 。 这 里 要 再 次 强调 ， 对 IL rw. block ) 的 调用 路 径 是 比较 多 的 ， 我 们 随同 代码 列 出 的 只 是 其 中 之 一 。 


[sys read( ) > block read( ) > 1] rw. block( )] 


987 / 

988 * ll] rw block: low-level access to block devices 

989 * @rw: whether to %READ or “WRITE or maybe “READA (readahead) 
990 * (nr: number of &struct buffer heads in the array 
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991 * @bhs: array of pointers to &struct buffer head 

992 * 

993 * 1] rw block( ) takes an array of pointers to &struct buffer heads, 
994 * and requests an I/O operation on them, either a READ or a %“WRITE. 
995 * The third %READA option is described in the documentation for 

996 * generic make request( ) which 1l rw block( ) calls. 

997 * 

998 * This function provides extra functionality that is not in 

999 * generic make request( ) that is relevant to buffers in the buffer 
1000 * cache or page cache. In particular it drops any buffer that it 
1001 * cannot get a lock on (with the BH Lock state bit), any buffer that 
1002 * appears to be clean when doing a write request, and any buffer that 
1003 * appears to be up-to-date when doing read request. Further it marks 
1004 * as clean buffers that are processed for writing (the buffer cache 
1005 * wont assume that they are actually clean until the buffer gets 
1006 * unlocked). 

1007 * 

1008 * 11 rw block sets b end io to simple completion handler that marks 
1009 * the buffer up-to-date (if approriate), unlocks the buffer and wakes 
1010 * any waiters. As client that needs a more interesting completion 
1011 * routine should call submit bh( ) (or generic make request( )) 

1012 * directly. 

1013 * 

1014 * Caveat: 

1015 * All of the buffers must be for the same device, and must also be 
1016 * ot the current approved size for the device. */ 

1017 

1018 void ll rw block(int rw, int nr, struct buffer head * bhs[ ]) 

1019 { 

1020 unsigned int major; 

1021 int correct size; 

1022 jnt i; 

1023 

1024 major = MAJOR (bhs[0] ->b_dev) ; 

1025 

1026 /* Determine correct block size for this device. */ 

1027 correct size = BLOCK SIZE; 

1028 if (blksize size[major]) { 

1029 i = blksize size[major] [MINOR (bhs[0]—>b dev) J; 

1030 if (i) 

1031 correct size = i; 

1032 ] 

1033 

1034 /* Verify requested block sizes. */ 

1035 for (50; i < nr; i^») 1 

1036 struct buffer head *bh; 

1037 bh = bhsli]; 

1038 if (bh-»b size != correct size) { 
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printk(KERN NOTICE ^11 rw block: device %s: ^ 
"only *d-char blocks implemented (Xu) Wn, 
kdevname (bhs[0]->b dev), 
correct size, bh-b size); 

goto sorry; 


j 


if ((rw & WRITE) && is read only(bhs[0]-^»b dev)) { 
printk(KERN NOTICE "Can't write to read-only device %s\n” 
kdevname (bhs[0]-^b dev)); 
goto sorry; 


j 


for (i = 0; i € nr; i++) { 
struct buffer head *bh; 
bh = bhs[i]; 


/* Only one thread can actually submit the I/O. */ 
if (test and set bit(BH Lock, &bh-b state)) 
continue; 


/* We have the buffer lock */ 
bh-»b end io = end buffer io sync; 


switch(rw) { 
case WRITE: 
if (latomic set buffer clean (bh)) 
/* Hmmph! Nothing to write */ 
golo end io; 
. mark buffer clean (bh): 
break; 


case READA: 
case READ: 
if (buffer uptodate (bh) ) 
/* Hmmph! Already have it */ 
goto end io; 
break; 
default: 
BUG( ) ; 
end io: 


bh-»b end io(bh, test bit(BH Uptodate, &bh->b_state)) - 


continue; 


} 


submit bh (rw, bh); 


$ 
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return; 


SOrry: 


/* Make sure we don't get infinite dirty retrics.. */ 
for {i = 0» i < nr; i++) 
mark buffer clean(bhs[i]):; 


参数 bhs[ ] 为 一 个 缓冲 区 头 部 buffer. head 的 指针 数组 ,数组 中 的 每 个 指针 都 指向 一 个 击 要 从 设备 读 
/ 写 的 记录 块 的 buffer head 数据 结构 ;参数 nr 则 为 该 数组 的 大 小 。 数 组 中 指定 要 读 / 写 的 记录 块 个 必 蚌 


连续 的 (不 过 通常 是 邻近 的 )， 但 是 必须 在 同 Keb. Be rw 指明 了 晶 进 行 的 操作 。 


每 种 块 设备 就 好 像 是 个 服务 器 ， 都 有 个 操作 请 求 队列 ， 队 列 的 头 部 是 一 个 request. queue t. 数据 
结构 ， 有 美的 定义 见 include/linux/blkdev.h: 


74 
15 
76 
TT 
78 
T9 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 


struct request_queue 


/* 

* the queue request freelist, one for reads and one for writes 
*/ 

struct list head request freelist|2]; 

/* 


* Together with qucue head for cacheline sharing 
*/ 

struct list head queue head; 

elevator t elevator; 


request fn proc * request fn; 
merge request fn * back merge fn; 
merge request fn * front merge fn; 
* merge requests fn; 
* make request fn; 
* 


merge requests fn 
make request fn 
plug device fn plug device fn; 


/水 


* The queue owner gets to use this for whatever they like. 


* ll rw blk doesn’ t touch it. 
*/ 


void * queuedata; 


[* 
* This is used to remove the plug when tq disk runs. 
*/ 


struct tq struct plug tq; 


/水 


* Boolean that indicates whether this queuc is plugged or not. 
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106 */ 

107 char plugged; 

108 

109 /* 

110 * Boolean that indicates whether current request is active or 
ili * not. 

112 */ 

113 char head active; 

114 

115 /* 

116 * [s meant to protect the queue in the future instead of 
117 * io request lock 

118 */ 

119 spinlock t request lock; 

120 

121 /* 

122 * Tasks wait here for free request 

123 */ 

124 wait queue head t wait_for request; 

125". F; 


ll typedef struct request_queue request_queue_t; 


数据 结构 中 各 个 字段 的 作用 和 意义 随 着 代码 的 进展 会 变 得 清楚 起 来 。 结 构 中 从 request_ fn 到 
plug device fn 都 是 一 些 函 数 指针 ， 例 如 第 87 行 的 意思 是 说 : request fn 是 一 个 指针 ， 指 向 类 型 为 
request fn proc 的 对 和 象 。j 们 request. fn. proc 则 通过 #typedef 定义 为 一 种 函数 〈 见 blkdevh ): 


63 typedef void (request fn proc) (request queue t *q) ; 


其 余 的 函数 指针 也 与 此 类 似 ， 这 些 指 针 〈 连 同 其 他 字段 ) SEDE ZEHN ES VIA CIS VERRE (9. 
南 要 对 个 块 设备 进行 操作 时 ， 就 为 之 设置 好 一 个 数据 结构 〔 匈 后 ) 并 将 其 挂 入 相应 的 请 求 队列 。 

为 了 拒 各 种 块 设备 的 操作 请 求 队列 有 效 地 组 织 起 米 ， 内 核 中 还 设置 了 … 个 结构 数组 blk_dev[ ]， 见 
driver/block/ll rw_blk.c: 


72 /* blk dev struct is: 


73 * *request fn 
74 * *current request 
75 */ 


76 struct blk dev struct blk dev[MAX BLKDEV] ; 
/* initialized by blk dev init( ) */ 


这 个 数组 以 主 设备 导 为 下 慰 ， 数 组 中 的 每 个 元 素 都 是 A blk dev struct. 数据 结构 ， 其 定义 在 
blkdev.h 中 给 出 : 


127 struct blk dev struct | 
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128 /* 

129 * queue proc has to be atomic 

130 */ 

131 request queue t request queue; 
132 queue proc *queue; 

133 void *data; 

134 hs 


它 的 主体 就 是 〈 操 作 ) 请 求 队列 request_queue。 此 外 ， 结 构 中 还 有 一 个 函数 指针 queue， 当 这 个 
指针 为 非 0 时 就 调用 这 个 函数 来 找到 有 具体 设备 的 请 求 队列 ， 这 是 考虑 具有 同一 主 设备 所 的 多 项 设备 而 
设 的 。 这 个 指针 也 在 设备 初始 化 时 设置 好 , 通常 当 该 指针 非 0 时 还 要 使 用 数据 结构 中 的 田 一 个 指针 data 
来 提供 辅助 性 的 信息 ， 以 帮助 该 函数 找到 特定 设备 的 请 求 队列 。 

XE ll rw. block( ) 以 后 ， 先 对 记录 块 大 小 作 一 些 检 查 ， 然 后 ， 如 果 是 写 访问 ， 则 还 要 检查 日 标 设 
备 是 否 可 写 。 内 核 中 有 个 HRA ro_bits， 定 义 于 drivers/block/ll_rw_blk.c: 


538 static long ro bits[MAX BLKDEV![8]!; 


每 个 设备 在 这 数组 中 都 有 个 标志 位 ， 通 过 系统 调用 iocth( ) 可 以 将 一 个 标志 位 设置 成 1 或 0， 表 示 
相应 设备 为 只 读 或 可 写 ， 而 is_read_only( ) 则 根据 设备 号 检查 这 个 数组 中 的 标志 位 是 否 为 1。 


录 块 ， 首 先 将 其 缓冲 区 加 上 锁 ， 还 要 将 其 buffer head. 结构 中 的 丙 数 指针 b end io 设置 成 指向 
end_buffer_io_sync( )。 当 完成 对 给 定 记录 块 的 读 写 时 ， 就 调用 这 个 函数 。 些 外， 对 才 符 写 的 缓冲 区 ， 
其 BH Dity 标志 位 应 该 是 1, dL dI. m BEAR IGaSBUGm 0, JM 
. mark buffer clean( ) 将 缓冲 区 转移 到 干净 负面 的 LRU PARI! asc SP T PEERS RE, ML Uptodate 
标志 位 应 该 是 0， 否则 就 不 需要 读 了 。 每 个 具体 的 设备 就 好 像 是 个 服务 器 ， 所 以 最 后 具体 的 读 写 足 通过 
submit bh( ) 将 读 写 请 求 提 交 给 “服务 器 ”完成 的 ， 每 次 一 个 记录 块 ， 其 代码 在 drivers/block/ll rw. blk.c 
中 : 


[sys_read( ) > block, read( ) > l| rw. block( ) > submit_bh( )] 


939 /沙洲 

940 * submit bh: submit a buffer head to the block device later for I/0 
941 * rw: whether to READ or “WRITE, or mayve to *READA (read ahead) 
942 * @bh: The &struct buffer head which describes the I/O 

943 * 

944 * submit bh( ) is very similar in purpose to generic make request( ), and 
945 * uses that function to do most of the work. 

946 * 

047 * The extra functionality provided by submit bh is to determine 

948 * b rsector from b blocknr and b size, and to sct b rdev from b dev. 
949 * This is is appropriate for IO requests that come from the buffer 
950 * cache and page cache which (currently) always use aligned blocks. 
951 */ 


952 void submit_bh(int rw, struct buffer head * bh) 
. 271. 
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953 { 

954 if (!test bit(BH Lock, &bh-^b state)) 
955 BUG( ) ; 

956 

957 set bit (RI Req, &bh->b state); 

958 

959 /* 

960 * First step, "identity mapping © RAID or LVM might 
961 * further remap this. 

962 */ 

963 bh->b_rdev = bh-5b dev; 

964 bh->b_rsector = bh->b blocknr * (bh 5b sizc?59); 
965 

966 generic make request(rw, bh); 

967 

968 switch (rw) | 

969 case WRITE: 

970 kstat. pgpgouttt+: 

971 break: 

972 default: 

973 kstal. pgpgint*; 

974 break; 

975 | 

976} 


XL B Mid Xi n be I BRE R A ELE, 所 以 在 调用 submit, bh ) 之 前 必须 已经 对 缓冲 区 通 

过 其 BH. LOCK 标志 位 加 了 锁 ( 见 前 面 的 1058 行 )， 这 里 则 通过 检验 该 标志 位 来 加 以 验证 。 进 一 步 ， 由 
个 进程 提 区 的 操作 请 求 未 完成 过 前 , 是 不 允许 其 他 进程 出 米 提 父 对 同一 记录 块 缓冲 区 的 操作 请 求 的 
所 以 ， 在 拓 变 对 特定 记录 上 块 缓冲 区 的 操作 请 求 之 前 ， 还 要 通过 标志 位 BH_Req 标志 位 加 锁 。 

WA BERERE generic_make_request( }。 对 于 一般 的 设备 ， 洋 际 的 日 标 设 备 bh-»b rdev Mh! 
逻辑 的 月 标 设备 bh->b_dev， 而 设备 上 的 扇 区 号 bh->b_rsector 则 要 根据 口 标 块 号 bh->b_blocknr J£, 
PASITA A A SAR A ATOA E e BORER a AE EN E 
Aca CEMA HERR” T, EET RRR RARE EER, 2j 
HRS M EBD S EX. 

PA A generic_make_request( H fC (id TEdrivers/block/ll. rw. blk.cP: 





[sys read( ) > block read( ) > Il. rw. block( ) > submit bh( ) > generic. make, request( )] 


850 / 
851 * generic_make request: hand a buffer head to it’s device driver for 1/0 
852 * @rw: READ, WRITE, or READA - what sort of 1/0 is desired. 


853 * Gbh: The buffer head describing the location in memory and on the device. 
854 * 

855 * generic make request( ) is used to make T/O requests of block 

856 * devices. It is passed a &struct buffer head and a &rw value. The 
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857 * %READ and %WRTTE options are (hopefully) obvious in meaning. The 
858 * %READA value means that a read is required, but that the driver is 
859 * free to fail the request if, for example, it cannot get needed 

860 * resources immediately. 

861 * 

862 * generic make request( ) does not return any status. The 

863 * success/failure status of the request, along with notification of 
864 * completion, is delivered asynchronously through the bh 5b end io 
865 * function described (one day) else where. 

866 * 

867 * The caller of generic make request must make sure that b page, 

868 * b addr, b size are set to describe the memory buffer, that b rdov 
869 * and b rsector are set. to describe the device address, and the 

870 * b end io and optionally b private are sct to describe how 

871 * completion notification should be signaled. BH Mapped should also 
872 * be set (to confirm that b dev and b blocknr are valid). 

873 * 

874 * generic make request and the drivers it calls may use b reqnext, 
875 * and may change b rdev and b rsector. So the values of these fields 
876 * should NOT be depended on after the call to generic make request. 
877 * Because of this, the caller should record the device address 

878 * information in b dev and b blocknr. 

879 * 

880 * Apart from those fields mentioned above, no other fields, and in 
881 * particular, no other flags, are changed by generic make request or 
882 * any lower level drivers. 

883 * ok/ 


884 void generic make request (int rw, struct buffer head * bh) 
885 | 


886 int major = MAJOR (bh->b_rdev) ; 

887 request queue t **q; 

888 

889 if (!bh->b end io) BLG( ); 

890 if (blk size[major]) Í 

891 unsigned long maxsector = (blk sizelmajor][MINOR(bh-»b rdev)] << 1) +1 1; 
§92 unsigned int sector, count; 

893 

894 count. = bh->b_size >> 9; 

895 sector = bh->b_rsector; 

896 

897 if (maxsector < count | maxsector - count < sector) [ 

898 bh-^b state & (1 << BH Lock) | (1 << BH Mapped) ; 

899 if (blk size[major] [MINOR(bh-^b rdev)]) í 

900 

901 /* This may well happen - the kernel calls bread( ) 
902 without checking the size of the device, e.g., 
903 when mounting a device. */ 

904 printk (KERN. TNFO 
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905 "attempt to access beyond end of device\n’); 
906 printk(KERN INFO “%s: rw=%d, want-*d, limit-*dWn', 
907 kdevname(bh-5b rdev), rw, 

908 (sector + count) >>1， 

909 blk size[major] [MINOR(bh->b rdev)]); 

910 } 

911 bh->b_end_io(bh, 0); 

912 return; 

913 } 

914 } 

915 

916 [* 

917 * Resolve the mapping until finished. (drivers are 

918 * still free to implement/resolve their own stacking 

919 * by explicitly returning 0) 

920 */ 

92] /* NOTE: we don’t repeat the blk size check for each new device. 
922 * Stacking drivers are expected to know what they are doing. 
923 */ 

924 do 1 

925 q = blk get queue(bh- b rdev); 

926 it (hg 1 

927 printk(KERN ERR 

928 "generic make request: Trying to access nonexistent block-device %s(%1d) \n”, 
929 kdevname(bh-5b rdev), bh->b_rsector) ; 

930 buffer IO error (bh); 

931 break; 

932 } 

933 

934 } 

935 while (q-»make request fn(g, rw, bh)); 

936  ] 


如 前 所 述 ， 数 组 blk size[ JL ] 中 的 内 容 为 各 项 具体 设备 中 含有 1024 字 节 记录 块 的 个 数 。 这 个 数组 
是 在 drivers/block/IL rw. blk.c Pat Y. 8: 


78 /* 

19 * blk size contains the size of all block-devices in units of 1024 byte 
80 * sectors: 

81 * 

82 * blk size[MAJOR] [MINOR] 

83 * 

84 * if (!blk sizelMAJOR]) then no minor size checking is done. 

85 */ 


86 int * blk size[MAX BLKDEV] ; 


注意 blk size[ ] 实 际 上 是 个 int 指针 数组 ， 以 主 设备 号 为 卜 标 ， 如 果 某 个 主 设备 号 押 对 应 的 设备 存 
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在 就 指向 个 以 次 设备 号 为 下 标的 int 数组 ， 否 则 就 为 0。 用 这 样 的 方式 实现 “ 黎 琉 ”数组 ， 邮 有 很 多 
LEA 0 的 数组 ， 可 以 大 大 节省 空间 ， 而 运行 效率 的 下 降 却 并 不 显著 ， 所 以 在 Linux 内 核 中 常常 要 用 
5j. 代码 中 的 890-914 行 恰 查 记录 块 的 肩 区 范围 ， 记 录 块 的 起 点 扇 区 号 为 bh->b_rsector， 扇 区 的 个 数 等 
于 记录 块 的 大 小 bh->b_size 除 于 512。 如 果 越 出 了 范围 就 通过 printk( ) 华 系统 的 运行 日 志 中 登记 出 错 信 
EB. Mil. 

接着 要 根据 设备 号 找 旬 目标 设备 的 操作 请 求 队列 ， 这 是 由 blk get queue( ) 完 成 的 ， 其 代 但 在 
drivers/block/H_rw_blk.c 中 


[sys. read( ) > block read( ) > ll. rw, block( ) > submit, bh( ) > generic_make_request( ) 
> blk, get. queue( )] 


138 /* 

139 * NOTE: the device-specific queuc( ) functions 
140 * have to be atomic! 

141 */ 

142 request queue t *blk get queue (kdev t dev) 

143 { 

144 request queue f *ret; 

145 unsigned long flags; 

146 

147 spin lock irqsave(&io request lock, flags) ; 
148 ret = | blk get queue (dev) ; 

149 spin unlock irqrestore(&io request lock, flags); 
150 

151 return rct; 

152 ) 


[sys. rcad( ) > block, read( ) > Il, rw. block( ) > submit, bh( ) > generic make request( ) 
»blk get queue( ) > . blk get queue( )] 


128 static inline request queue t *  blk get queue (kdev_t dev) 


129 { 

130 struct blk dev struci *bdev = blk dev + MAJOR(dev); 
131 

132 if (bdev—>queue) 

133 return bdev~>queue (dev) ; 

134 else 

135 return &bik dev [MAJOR (dev) |. request. queue; 
136} 


以 主 设备 号 为 下 标 ， 就 可 以 在 blk_dev[ ] 中 找到 月 标 设 备 的 blk dev struct 结构 。 对 一 种 设备 第 一 
次 调用 __blk_get_queue( ) 时 ， 要 通过 其 函数 指针 queue HEXANE SRM), GENT ASI 
把 它 记录 在 结构 中 的 request_queue 字段 ， 以 后 就 简单 了 。 对 于 IDE 硬盘 ， 其 blk_dev_struct 结构 中 的 
函数 指针 queue 在 初始 化 时 设置 成 指向 ide get queue( )， 而 且 其 指针 data 设置 成 指向 代表 首相 应 借 件 
接口 的 ide_hwif_t 数据 结构 。 所 以 ， 对 十 IDE 硬盘 ， 将 会 调用 ide get queue( ) 取 得 其 操作 请 求 队列 ， 
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[sys read( ) > block read( ) > 1] rw block( ) > submit bh( ) > generic make request( ) 
»blk get queue( ) > . blk get queue( ) > ide get queue( )] 


1367 /* 

1368 * ide get queue( ) returns the queue which corresponds to a given device. 
1369 */ 

1370 request queue t *ide get queue (kdev t dev) 

1371 { 

1372 ide hwif t *hwif = (ide hwil t *) blk dev [MAJOR (dev) ]. data; 

1373 

1374 return &hwif->drives[DEVICE NR(dev) & 1]. queue; 

1375} 


这 里 的 宏 操 作 DEVICE_NR(dev) Mik 5 dev PRK 5S, Alaa, RUE FIR 
设备 写 只 能 取 0 和 ! 两 种 值 。 每 种 IDE ih, BADIM ARES IDE RN, MAT ide_hwif_t 数据 结 
构 ， 后 面 我 们 会 看 到 它 的 定义 ， 但 是 这 里 从 代码 中 已 可 看 钊 这 个 结构 中 有 个 drives[ ] 数 组， 对 应 着 可 以 
连接 到 同一 IDE 接口 上 的 同 种 设备 ， 每 个 这 样 的 设备 部 有 个 读 写 请 求 队列 。 这 是 一 个 request. queue t 
数据 结构 ， 前 面 我 们 已 经 列 出 了 它 的 定义 。 

找到 了 具体 的 队列 以 后 ， 就 要 通过 由 这 个 队列 提供 的 make request. fn 操作 创建 … 个 读 写 请 求 数据 
结构 ， 并 把 它 挂 入 该 队列 。 人 在 某 些 情况 下 ， 有 些 敢 辑 上 存在 的 块 设备 可 能 并 没有 上 接 的 对 应 物 ， 而 只 
是 间接 地 映射 到 其 他 块 没 备 上 。 这 种 仅 在 逻辑 上 -存在 的 块 设备 只 是 种 中 间 的 过 小 层 ， 央 此 要 提供 
个 函数 来 实现 相应 的 映射 或 完成 对 最 终 疫 备 的 操作 ， 并 在 初始 化 阶段 将 其 操作 庄 求 队列 结构 中 的 也 数 
指针 make reguest fn 指 向 这 个 甬 数 。 刀 果 这 个 末 数 所 完成 的 只 是 从 一 种 设备 刘 另 一 种 设备 的 映 映 ,就 
返回 一 个 正 整 数 ， 使 924 一 935 行 的 do-while 循 趟 骨 执 行 “ 通 。 侧 如 采 完 成 的 是 对 终 慨 设备 的 操作 ， 则 
返回 0， 从 而 结束 该 do-while 循环 。 举 例 来 说 ， 在 有 容错 要 求 的 系统 中 中 以 在 逻辑 上 设立 一 个“ 趾 靠 
三 帘 ”>， 并 且 将 文件 系统 建立 在 可 靠 硬 祺 上， 而 实际 上 则 把 数据 平行 地 存储 在 两 个 硬 帘 上 。 此 时 号 串 以 
编写 “个 专用 于 这 种 可 靠 硬 枕 的 驱动 程序 ， 并 使 该 设备 的 操作 队列 结构 中 的 函数 指针 make request fn 
指 癌 这 个 函数 。 当 提交 … 个 读 写 请 求 时 ， 首 先 使 buffer_head 结构 中 的 b rdev TERRI “MBE, dX 
到 第 :个 使 盘 的 恋 写 请 求 队列 ( 匈 925 行 ， 注 意 这 里 用 的 是 b rdev 中 的 设备 号 )， 并 在 “可靠 从 盘 ” 的 
make request fn 中 为 第 P RESEGIE :个 读 扎 请求, 然后 将 buffer_head 结构 中 的 b_rdey 字段 改 成 指 加 
第 二 个 硬盘 ， 并 返回 1。 这 样 ， 就 会 再 执行 一 遍 924—935 行 的 do-while 循 末 ， 为 第 二 个 硬盘 也 创建 一 
个 读 己 请求 ， 但 是 这 一 次 make request fn 操作 返回 0， 从 出 结束 这 个 do-while fA. FÆ, pedi 
“可 靠 三 站 ”的 读 写 请 求 就 转化 成 了 对 两 个 具体 硕 人 由 的 读 写 请 求 。 至 十 我 们 在 本 节 所 关心 的 IDE HA, 
KRKA UALR IRE, ATWO SRB IN| 0。 对 于 普通 的 IDE Meth, i See ^ make request( ) 
是 完成 提交 操作 请 求 的 主体 ， 适 用 于 常规 的 〈 终 极 ) RS. vB GEI GE A KAR 
个 操作 请 求 ， 即 request 数据 结构 ， 并 将 这 个 数据 结构 挂 入 设备 的 操作 请 求 队列 中 。 如 盯 在 此 之 有 曲 该 队 
列 是 空 的 ， 就 要 启动 设备 的 输入 /输出 操作 。 “也 启 动 以 后 ， 对 整个 队列 的 拘 作 就 是 用 中 断 驱动 的 了 。 
这 个 由 中 断 驱 动 的 过 程 一 直 旧 到 队列 中 于 浇 有 等 待 者 操作 的 请 求 时 才 结 束 。 旭 果 在 将 把 作 请 求 持 入 队 
列 之 前 队列 中 非常， 亏 就 说明 由 中 斯 红 动 的 整个 过 程 已 经 局 动 ， 从 概 信 上 说 只 此 把 新 的 请 求 排 在 队列 
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的 尾部 就 可 以 了 。 但 是 ， 实 际 上 常常 要 进行 某 种 程度 的 优化 。 这 个 函数 所 作 的 优化 之 - ， 是 在 队列 中 
由 后 向 前 搜索 ， 试 图 将 新 的 请 求 与 已 经 在 队列 中 的 其 他 请 求 合 并 。 合 并 的 条 件 主要 是 操作 相同 〈 同 为 
EME) 并 且 扇 区 连续 。 有 时 候 ， 两 个 请 求 的 扇 区 相连 续 ， 但 是 缓冲 区 却 不 连续 〈 分 属 不 同 的 页 面 )》， 
此 时 两 个 请 求 仍 能 合并 ， 但 是 形成 两 个 不 连续 的 缓冲 区 “分 段 ”(segment)， 这 是 允许 的 。 不 过 ， 对 于 
每 个 request 结构 中 可 以 容纳 的 分 段 数量 有 个 限制 。 在 request 结构 中 有 个 buffer head 结构 的 队列 ， 所 
谓 合并 就 是 将 多 个 buffer_head 结构 连 在 一 起 成 为 一 个 操作 请 求 。 由 于 这 个 函数 的 代码 较 长 ， 我 们 分 段 
阅读 ， 其 代码 在 drivers/block/ll rw. blk.c 中 : 


[sys read( ) > block read( ) > ll rw. block( ) > submit, bh( ) > generic, make, request( ) 
> make request( )] 


695 static int , make request(request queue t * q, int rw, 


696 struct buffer head * bh) 

697 { 

698 unsigned int sector, count; 

699 int max_segments = MAX_SEGMENTS; 

700 struct request * req = NULL, *freereq = NULL; 
701 int rw_ahead, max_sectors, el_ret; 

702 struct list head *head; 

703 int latency; 

704 elevator t *elevator = &q->elevator; 

705 

706 count = bh->b_size >> 9; 

TOT sector = bh->b_rsector; 

708 

709 rw ahead = 0; /* normal case; gets changed below for READA */ 
710 switch (rw) { 

111 case READA: 

712 rw ahead = l; 

713 rw = READ; /* drop into READ */ 

714 case READ: 

715 case WRITE: 

716 break; 

TIT defauit: 

718 BUG ( ) ; 

719 goto end io; 

120 } 

721 

122 /* We'd better have a real physical mapping! 
123 Check this bit only if the buffer was dirty and just locked 
724 down by us so at this point flushpage will block and 
725 won't clear the mapped bit under us. */ 
726 if (buffer mapped (bh) ) 

727 BUG( ); 

728 

129 /* 
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730 * Temporary solution - in 2.5 this will be done by the lowlevel 
731 * driver. Create a bounce buffer if the buffer data points into 
732 * high memory - keep the original buffer otherwise. 

733 */ 

734 #if CONFIG HIGHMEM 

735 bh = create_bounce (rw, bh): 

736 Hendif 

737 


所 请 求 的 操作 种 类 可 以 是 READ、WRITE 以 及 READA 三 者 之 --。 如 果 是 READA， 即 预 读 ， 则 
将 了 预 读 标志 rw ahead 设置 成 1， 并 将 操作 种 类 改 成 READ。 记 录 块 的 缓冲 区 必须 属于 某 个 缓冲 页 面 ， 
其 buffer head 结构 中 的 Mapped 标志 位 应 该 为 1， 所 以 这 里 通过 buffer_mapped( ) 加 以 确认 。 如 果 CPU 
文 持 超过 32 位 (4GB) 内 存 空间 (HIGNMEM )， 而 缓冲 区 又 在 高 寺 AGB 的 空间 中 ， 就 要 通过 
create_bounce( ) 为 其 在 4GB 以 内 建立 -个 镜像 ， 而 具体 的 读 写 将 针对 这 个 镜像 进行 ， 完 成 以 后 再 把 其 
内 容 复 制 到 高 十 4GB 的 空间 中 。 这 是 因为 目前 DMA 控制 器 的 寺 址 能 力 都 不 超过 32 位 。 

ARABIE PUB. 


[sys read( ) > block read( ) > ll rw block( ) > submit bh( ) > generic make request( ) 
> make request( )] 


738 /* look for a free request. */ 


T39 /* 

740 * Try to coalesce the new request with old requests 
741 来 / 

742 max sectors = get_max_sectors(bh->b_rdev) ; 

743 

744 latency = elevator request latency(elevator, rw): 

145 

746 /* 

747 * Now we acquire the request spinlock, we have to be mega careful 
748 * not to schedule or do something nonatomic 

749 */ 

750 again: 

751 spin lock irq(&io request lock); 

192 

753 /* 

154 * skip first entry, for devices with active queue head 
755 x/ 

756 head = &q-^queue head; 

757 if (q->head_active && !q->plugged) 

758 head = head->next: 

759 

760 if (list empty (head)) { 

761 q->plug device fn(q, bh->b rdev); /* is atomic */ 
762 goto get rg; 

763 } 
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这 里 调用 了 一 个 函数 elevator_request_latency( ) 计 算出 一 个 数值 latency， 财 是 为 后 而 的 为 一 种 优化 
进行 一 些 准 备 ， 我 们 暂时 放 一 下 。 我 们 也 和 暂时 跳 过 这 时 的 757—758 行 。 | 

如 果 队 列 原 来 是 空 的 ， 那 就 有 个 启动 IO 操作 的 问题 。 当 然 ，LO 的 启动 要 到 将 第 -个 请 求 挂 入 队 C 
列 中 以 后 才 进 行 。 可 是 由 谁 进 行 呢 ? -个 选择 是 由 当前 进程 自己 直接 调用 一 个 函数 来 启动 。 为 一 个 选 
择 是 将 VO 的 启动 作为 一 个 bottom, half 函数 〈 见 第 3 章 )“ 插 入 ”内 核 中 的 “个 任务 队列 tq_disk。 这 
样 ， 每 当 执 行 这 个 任务 队列 时 ， 就 会 依次 执行 队列 中 等 待 执 行 的 所 有 bottom half 函数 ， 包 括 具 体 块 设 
Ast VO 的 启动 。 这 里 (761 行 ) DS eS GST plug. device, fn 调用 个 由 具体 队列 提供 的 函数 ， 这 个 
函数 可 以 决定 是 否 将 队列 插入 tq_disk。 就 IDE 硬盘 而 言 ， 这 个 指针 在 初始 化 时 设置 成 指 问 
generic_plug_device( ), 它 将 设备 的 操作 请 求 队列 插入 tq. disk 中 。 代 表 着 操作 请 求 队列 的 request_queue_t 
数据 结构 中 有 -个 成 分 plug_tq， 是 一 个 tq_struct 结构 ， 就 是 为 链 入 tq_disk 队列 而 设 的 。 还 有 一 个 成 分 
plugged， 是 一 个 标志 ， 当 这 个 标志 为 1 时 就 表示 该 数据 结构 已 经 在 tq. disk 队列 中 。 当 执行 任务 队列 
tq. disk 时 ,会 通过 队列 中 每 个 tq_struct 结构 里 的 函数 指针 routine 执行 一 个 bottom-half AX, 启动 其 体 
硬盘 的 IO。 将 操作 请 求 队 询 插入 tq. disk 以 后 ， 就 直接 转 到 get rq 标号 处 ， 进 一 步 处 理 将 操作 请 求 加 
入 请 求 队列 的 事 。 但 是 ， 如 果 操 作 请 求 队 询 原来 不 是 空 的 活 ， 那 就 要 先 试 试 是 否 能 将 新 的 请 求 与 队列 
中 原 有 的 请 求 合 在 一 起 进行 一 些 优 化 。 

继续 往 下 看 __ make_request( ) 的 代码 ， 这 -- 段 就 是 对 优化 的 尝试 。 


[sys_read( ) > block_read( ) > ll_rw_block( ) > submit_bh( ) > generic make request()» __make_request( )] 


765 el ret = elevator—>elevator_merge_fn(q, &req, bh, rw, 

166 &max sectors, &max segments); 

161 switch (el ret) { 

768 

169 case ELEVATOR BACK MERGE: 

770 if (1!1q->pback_merge fn(q, req, bh, max segments)) 
771 break ; 

772 req-~bhtail->b_reqnext = bh; 

773 req-»bhtail = bh; 

774 req-»nr sectors = reg-2hard nr sectors += count; 
775 req-»e = elevator; 

776 drive stat acct(req-^rq dev, req->cmd, count, 0); 
TOL attempt back merge(q, req, max sectors, max segments); 
778 goto oul; 

119 

180 case ELEVATOR FRONT MERGE: 

781 if (Iq front merge fn(q, req, bh, max segments)) 
182 '^ break; 

783 bh->b_reqnext = req-?bh; 

784 req->bh = bh; 

785 req->buffer = bh->b data; 

786 req->current_nr_sectors = count; 

787 reg->sector = req->hard sector - sector; 
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788 req->nr_sectors = fed->hard nr sectors += count; 
789 req--e = elevator; | 

190 drive stat acct(req-?rq dev, req-^cmd, count, 0); 
191 attempt front merge(q, head, req, max sectors, max segments); 
792 goto out; 

793 /* 

194 * elevator says don t/can t merge. get new request 
795 */ 

796 case ELEVATOR NO MERGE: 

797 break; 

798 

799 default: 

800 printk(“elevator returned crap (%d)\n’, el ret); 
801 BUG ( ) ; 

802 } 

803 


当 一 个 IDE 设备 的 队列 中 已 经 有 操作 请 求 在 等 待 ， 而 又 有 新 的 操作 请 求 到 来 时 ， 可 以 作 两 种 不 同 
的 优化 。 一 种 是 因 肩 区 连续 而 引起 的 操作 合并 ， 另 一 种 是 对 操作 路 线 所 作 的 优化 或 者 说 调度 。 为 此 ， 
在 request. queue t 结构 内 部 设立 了 一 个 elevator_t 数据 结构 ， 名 为 elevator， 此 命名 从 字义 上 就 表明 了 
对 磁盘 操作 的 调度 类 似 于 对 电梯 的 调度 。 这 种 数据 结构 的 定义 在 include/linux/elevator.h 和 
include/linux/blkdev.h 中 : 


15 struct elevator_s 

16 || 

17 int sequence; 

18 

19 int read latency; 

20 int write latency; 

2] int max bomb segments; 

22 

23 unsigned int nr segments; 

24 int read pendings; 

25 

26 elevator fn * elevator fn; 

27 elevator merge fn *clevator merge fn; 
28 elevator dequeue fn *dequeue fn; 
29 

30 unsigned int queue ID; 

3l 13 


13 typedef struct elevator_s elevator_t; 
这 个 数据 结构 中 提供 了 几 个 函数 指针 用 十 操作 的 优化 , 所 以 特定 的 elevator t 决定 了 其 体 的 优化 算 
法 。 目 前 的 Linux 内 核 只 提供 一 种 (也 许 应 该 说 一 套 ) 优化 算法 ， 滥 就 是 ELEVATOR_LINUS， 定 义 于 
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include/linux/elevator.h: 


99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
lil 
112 
113 


#define ELEVATOR_LINUS \ 
((elevator t) { \ 
0, /* not used */ \ 

\ 

1000000, /* read passovers */ \ 
2000000, /* write passovers */  wV 

0, /* max bomb segments */ V 

\ 

0, /* not used */ \ 

0, /* not used */ \ 

\ 

elevator_linus, /* elevator fn */ \ 
elevator linus merge, /* elevator merge fn */ \ 
elevator noop dequeue, /* dequeue fn */ \ 


j) 


对 块 设备 的 数据 结构 初始 化 时 , 将 其 request_queue 1 结构 内 的 elevator V E X; ELEVATOR, LINUS, 


所 以 765 行 实际 调用 的 是 elevator linus merge( )， 其 代码 在 drivers/block/elevator.c 中 : 


[sys read( ) > block read( ) > ll rw block( ) > submit_bh( ) > generic. make, request( ) 
> make request( ) > elevator linus merge( )] 


93 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
T2 
73 
74 
75 


int elevator linus merge (request queue t *q, struct request **req, 


struct buffer head *bh, int rw, 
int *max sectors, int *max segments) 


struct list head *entry, *head = &q-^queue head; 
unsigned int count = bh-5b size >> 9, ret = ELEVATOR NO MERGE; 


entry - head; 
if (q-^head active && !q->plugged) 


head = head-?next; 


while ((entry = entry—>prev) !- head) { 


struct request * rq = *req = blkdev entry to request(entry); 
if (__rq->sem) 
continue; 
if ( rq->cmd != rw) 
continue; 
if ( rq->nr sectors + count > *max sectors) 
continue; 
if ( rq->rq dev != bh->b rdev) 
continue; 
if ( rg-^sector + | rq—nr sectors == bh->b rsector) { 
ret = ELEVATOR BACK MERGE; 
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76 break; 

77 } 

78 if (! ra->elevalor sequence) 

79 break; 

80 if ( rq->sector - count == bh-?b rsector) { 

81 rq-»elevator sequence--; 

82 ret - ELEVATOR FRONT MERGE; 

83 break; 

84 j 

85 } 

86 

87 /* 

88 * second pass scan of requests that got passed over, if any 
89 */ 

90 if (ret != ELEVATOR NO MERGE && *req) { 

91 while ((entry = entry-^next) !- &q-^queue head) | 
92 struct request *tmp = blkdev entry to request (entry); 
93 tmp >elevator sequence--; 

94 j 

95 } 

96 

97 return ret; 

98} 


这 里 的 blkdev_entry_to_request( ) 是 个 宏 操作 ， 从 一 个 list head 结构 找到 其 宿主 request 结构 , 定义 
F include/linux/blkdev.h: 


188 Hdefine blkdev_entry_to_request (entry) \ 
list entry((entry), struct request, queue) 


xx v C^ P BSE BAS, RETR BBR VE VESK PV m RA BE OK AH 
的 指导 (向 前 、 向 后 、 或 不 能 合并 )， 并 通过 参数 req RITA GS ZANE. ARE FUT 
操作 的 主线 索 ， 我 们 把 这 部 分 优化 的 详情 留 给 有 兴趣 的 读者 。 个 过 要 指 出 ， 与 新 来 到 的 操作 请 求 合 并 
以 后 可 能 会 为 进 步 的 合并 创造 条 件 , 万 以 前 面 代 伽 中 的 777 和 791 行 还 要 调用 attempt_back_merge( ) 
或 attempt_front_merge( ) 作 进一步 的 尝试 。 

如 果 合 并 成 功 ， 就 不 需 紫 为 新 的 读 写 请 求 单 独创 建 一 个 数据 结构 并 挂 入 队列 了 ， 知 则 就 要 继续 往 
下 跑 ， 这 就 到 了 标号 get rq 5b. 


[sys_read( ) > block_read( ) > ll rw. block( ) > submit_bh( ) > generic_make_request( ) > __make_request )] 


804 /* 
805 * Grab a free request from the freelist. Read first try their 
806 * own queue - if that is empty, we steal from the write list. 


807 * Writes must block if the write list is empty, and read aheads 
808 * are not crucial. 
809 */ 
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810 
811 
812 
813 
814 
815 
816 
817 
818 
819 
820 
821 
822 
823 
824 
825 
826 
827 
828 
829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
' 843 
844 
845 
846 
847 
818 


15 
16 
17 
18 
19 
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get rq: 

if (freereq) { 
req = freereq; 
freereq = NULL; 

} else if ((req = get request(q, rw)) == NULL) { 
spin_unlock_irg(&io request lock); 
if (rw ahead) 

goto end io; 


freereg = __ get request wait(q, rw); 
goto again; 


} 


/* fill up the request-info, and add it to the queue */ 
req-?cmd = rw; 
req-^»errors = 0; 
req-^hard sector = req->sector = sector; 
req-^hard nr sectors = req-?nr sectors = count; 
req-?current nr sectors = count; 
req-^nr segments = 1; /* Always 1 for a new request. */ 
req—nr hw segments = 1; /* Always 1 for a new request. */ 
req->buffer = bh-?b data; 
req-»sem = NULL; 
req->bh = bh; 
req->bhtail = bh; 
reg->rq_dev = bh-?b rdev; 
req->e = elevator; 
add request(g, req, head, latency); 
out: 
if (!q->plugged) 
(qa->requcst_fn) (a); 
if (freereq) 
blkdev_releasc_request (freereq) ; 


spin unlock irq(&io request lock); 
return 0; 
end io: 
bh-»b end io(bh, test bit(BH Uptodate, &bh-^b state)); 
return 0; 


} 


首先 是 分 配 一 个 request 结构 ， 这 种 数据 结构 是 在 include/linux/blkdev.h 中 定义 的 : 


f* 

* Ok, this is an expanded form so that we can use the same 
* request for paging requests when that is implemented. In 
* paging, "bh is NULL, and the semaphore is used to wait 
* for read/write completion. 
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20 */ 

21 struct request { 

22 struct list head queue; 

23 int elevator sequence; 

24 struct list head table; 

25 

26 siruct list head *free list; 

27 

28 volatile int rq status; /* should split this into a few status bits */ 
29 #define RQ INACTIVE (-1) 
30 Hdefine RQ ACTIVE 1 

31 Hdefine RQ SCSI BUSY Oxffff 
32 4define RQ SCSI DONE Oxfffe 
33 #define RQ SCSI DISCONNECTING Oxffe0 
34 

35 kdev_t rq_dev; 

36 int cmd: /* READ or WRITE */ 
37 int errors; 

38 unsigned long sector; 

39 unsigned long nr_sectors; 

40 unsigned long hard sector, hard nr sectors; 
4] unsigned int nr_segments; 

42 unsigned int nr hw segments; 

43 unsigned long current nr sectors; 
44 void * special; 

45 char * buffer; 

46 struct semaphore * sem; 

47 struct buffer head * bh; 

48 struct buffer head * bhtail; 

49 request queue t *q; 

50 elevator t *e; 

51 n 


代码 的 作者 在 注释 中 说 以 后 在 页 面 换 入 / 换 出 机 制 中 也 将 使 用 这 个 数据 结构 。 

内 核 中 可 供 使 用 的 request 数据 结构 的 数量 是 固定 的 ， 同 时 在 调用 get_request( ) 时 也 说 明了 具体 的 
操作 《〈 写 操作 比 读 操作 慢 ， 所 以 限制 也 更 严 )。 如 果 分 配 失败 ， 就 说 明 系统 中 未 完成 的 操作 请 求 已 经 太 
多 了 。 怎 么 办 呢 ? 那 就 要 看 具体 情况 了 。 如 果 所 上 时 求 的 只 不 过 是 预 读 ， 那 本 来 就 是 可 做 可 不 做 的 ， 所 
以 干脆 就 无 功 而 返 了 。 否 则 ， 要 是 非 做 不 可 的 话 ， 才 就 只 好 通过 _get_request_wait( RERET. € 
这 个 函数 中 还 要 针对 任务 队列 tq_disk 调用 run_task_queue( )， 使 所 有 可 能 尚未 启动 的 操作 请 求 队 列 得 
到 启动 ， 为 request 结构 的 回收 创造 条 件 。 当 request 结构 的 同 收 使 分 配 这 种 结构 的 些 求 得 到 满足 时 , 睡 
眠 中 的 进程 就 被 唤 卓 而 从 __get_request_wait( ) 返 回 。 显 然 , 返回 时 指针 req 必定 指向 蜀 分 配 到 的 request 
结构 而 无 需 再 加 检验 。 不 过 ， 经 过 一 段 时 间 的 睡 虑 ， 操 作 请 求 队列 的 情况 可 能 已 经 变 了 【例如 队列 中 
的 若干 操作 请 求 中 能 已 经 完成 而 不 再 在 队列 中 了 )， 所 以 要 回 到 前 面 的 标号 again 处 ， 重 新 使 指针 head 
指 癌 队列 中 的 第 一 个 请 求 。 通 常 ， 当 开始 执行 一 个 操作 请 求 时 要 将 其 request 结构 从 队列 前 端 摘 下 ， 但 
是 有 些 设备 的 驱动 程序 要 到 操作 完成 时 才 将 它 摘 下 ， 所 以 对 这 样 的 操作 要 跳 过 队列 中 的 第 一 个 request 
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结构 ， 人 而 使 指针 head 指向 队列 中 的 第 二 项 。 为 了 区 分 这 两 种 不 同 的 方式 ， 企 request. queue t 中 设立 了 
一 个 head_active 字段 ， 表 示 队 列 中 的 第 一 个 request 结构 已 经 active， 因 而 应 该 把 它 跳 过 。 不 过 ， 这 只 
有 在 操作 请 求 队列 已 经 启动 〈 不 再 在 tq. disk 队列 中 ) BITS EC. 756—758 行 )。 当 第 二 次 到 达 811 行 
时 ，freereq “ 定 已 经 指向 一 个 空闲 的 request 数据 结构 。 

完成 了 对 request 结构 的 设置 以 后 ， 就 调用 add_request( ) 将 其 挂 入 设备 的 操作 请 求 队 州 。 这 里 的 参 
数 latency 是 在 前 面 744 行 设置 好 了 的 ， 有 反映 了 当时 对 操作 等 待 时 间 的 预 估 值 ， 用 于 优化 日 的 ， 其 实际 
上 来 自 设备 的 elevator t 数据 结构 (request_gueue_t 结构 中 的 一 部 分 )。 | 





72 static inline int elevator request latency (elevator t * elevator, int rw) 
73 { 

74 int latency; 

75 

16 latency = elevator-?read latency; 

71 if (rw 1= READ) 

78 latency = elevator->write latency; 

19 

80 return latency; 


8] } 


函数 add_request( ) 的 代码 在 Il rw. blk.c "F: 


[sys read( ) > block read( ) > ll rw block( ) > submit, bh( ) > generic make request( ) 
> make request( ) > add request )] 


582 /* 

583 * add-request adds a request to the linked list. 

584 * It disables interrupts (acquires the request spinlock) so that it can muck 
585 * with the request-lists in peace. Thus it should be called with no spinlocks 
586 * held. 

587 * 

588 * By this point, req-^emd is always either READ/WRITE, never READA, 

589 * which is important for drive stat acct( ) above. 

590 */ 

591 

592 static inline void add request (request queue t * q, struct request * req, 
593 struct list head *head, int lat) 

594 { 

595 int major; 

596 

597 drive stat acct(reg- rq dev, req->cmd, req->nr_sectors, 1); 

598 

599 /* 

600 * let selected elevator insert the request 

601 */ 

602 g->elevator. elevator_fn(req, &q->clevator, &q~>queue head, head, lat); 
603 
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606 
607 
608 
609 
610 
6il 
612 
613 
614 
615 
616 
617 
618 


Linux A Eds RAS ee PT C PAD 
/* 


* FIXME(eric) I don' t understand why there is a need for this 
* special case code. It clearly doesn t fit any more with 
* the new queueing architecture, and it got added in 2.3.10. 
* [| am leaving this in here until I hear back from the COMPAQ 
* people. 

*/ 
major = MAJOR(req— rq dev); 


if (major >= COMPAQ SMART2 MAJOR*O && major <= COMPAQ_SMART2_MAJOR+7) 


(q->request_fn) (q) ; 
if (major >= COMPAQ CISS_MAJOR+0 && major <= COMPAQ CISS MAJOR*7) 
(q->request_fn) (q) ; 
if (major >= DAC960 MAJOR+0 && major <= DAC960_MAJOR+7) 
(q->request_fn) (a); 


} 


这 里 的 drive_stat_acct( ) 只 是 用 来 积累 一 些 统计 信息 ， 我 们 不 感 兴趣 。 


如 果 队 列 原来 是 空 的 ， 球 么 很 简单 ， 通 过 list_add( HE request 数据 结构 挂 入 队列 就 是 了 ，request 
结构 中 的 list head 结构 就 是 为 此 日 的 币 设 的 。 如 果 队 人 州 中 原 米 喇 有 操作 请 求 呢 ? 显然， 这 意味 者 新 的 
请 求 不 能 与 已 经 存在 的 请 求 合 并 ， 所 以 应 将 其 作为 一 个 单独 的 请 求 持 入 队列 。 如 果 不 考虑 进 步 优化 ， 
把 新 的 请 求 挂 在 队列 的 尾 端 也 就 以 了 。 但 是 ， 这 里 考虑 了 进 - - 步 的 优化 ， 即 对 操作 路 线 的 优化 。 所 
以 通过 elevator 数据 结构 中 的 函数 指针 elevator. fn 调 几 提供 县 体 优 化 算法 的 消 数 ,由 这 个 了 数 来 决定 怎 
样 将 新 的 操作 请 求 插入 队列 中 。 我 们 在 前 面 已 经 看 到 其 elevator. fn 指针 指向 elevator_linus( )， 其 代码 


在 drivers/block/elevator.c FP: 


[sys read( ) > block read( ) > ll rw block( ) > submit bh( ) > generic make request( ) ».. make requesi( ) 


> add request( ) > elevator linus( )] 


29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
A] 
42 
43 
44 
45 
46 


/* 
* Order ascending, but only allow a request to be skipped a certain 
* number of times 
*/ 
void elevator linus(struct request *req, elevator t *elevator, 
struct list head *real head, 
struct list head *head, int orig latency) 


struct list head *entry = real head; 
struct request *tmp; 


regq—elevator sequence - orig latency; 


while ((entry = entry->prev) !- head) | 
tmp = blkdev entry to request (entry); 
if (TN ORDER(tmp, req)) 
break; 
if (!tmp-^elevator sequence) 
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47 break ; 

48 tmp-^elevator sequence--; 
49 } 

50 list_add(&req—>queue, entry); 
51 o} 


这 个 明 数 所 实现 是 对 磁头 移动 路 线 的 优化 。 设 想 在 队列 中 已 经 存在 两 个 操作 请 求 ， 第 一 个 是 对 第 
100 号 柱 面 上 某 几 个 扇 区 的 操作 ， 第 个 是 对 第 800 号 柱 面 上 某 儿 个 扇 区 的 操作 。 而 新 的 请 求 是 对 第 
150 号 柱 而 上 某 几 个 扇 区 的 操作 。 如 果 简 单 地 把 新 的 请 求 排 在 最 后 ， 那 么 在 执行 时 先 要 把 伐 头 移 到 第 
100 号 柱 面 ， 完 成 后 再 移 到 第 800 号 柱 面 ， 最 后 又 要 回 到 第 150 号 柱 耐 。 磁 头 的 移动 定位 又 站 磁盘 访问 
中 最 费时 间 的 动作 。 这 样 的 情况 一 多 ， 做 头 就 疲 于 硅 命 而 大 大 降低 了 效率 。 如 采 新 的 请 求 恰 与 也 在 和 
100 号 柱 面 而 本 来 可 以 不 必 移动 磁 头 , ARR ALE T. 可 是 , 如 果 把 新 的 请 求 插入 到 第 2 个 请 求 之 前 ， 
让 磁头 在 完成 了 第 - 个 请 求 的 操作 以 后 “顺路 ” 先 对 第 150 号 柱 面 操作 ， 然 后 再 到 第 800 号 杆 面 ， 那 
就 可 以 显 营 改善 效率 了 。 所 以 ， 表 而 上 是 选择 新 请 求 在 队列 中 的 插入 点 ， 实 质 上 却 是 对 磁头 移动 的 
种 调度 。 代 码 中 从 队列 的 尾 端 开始 向 前 扫描 ， 以 扇 区 号 为 依据 〈 扇 区 号 与 性 面 号 是 可 以 换算 的 )， 试 图 
找到 这 么 :个 请 求 ， 即 它 所 操作 的 扇 区 在 新 请 求 所 操作 的 肩 区 之 前 ， 内 而 一 者 是 “顺序 ”的 。 如 采 每 
次 加 入 - :个 新 操作 请 求 时 都 保持 顺序 ， 那 么 整个 队列 就 都 是 顺序 的 。 宏 操作 IN ORDER 的 定义 在 


include/linux/elevator.h 中 : 


61 /* 

62 * This is used in the elevator algorithm. We don't prioritise reads 

63 * over writes any more --- although reads are more time-critical than 
64 * writes, by treating them equally we increase filesystem throughput. 
65 * This turns out to give better overall performance. =~~ scl 

66 */ 

67 #define IN ORDER (s1, s2) \ 

68 ((((s1)->ra_dev == (S2)->rq_dev && V 

69 (s1) >sector < (s2)->sector)) ;| ^ 

70 (sl)->rq_dev < (s2)->rq_dev) 


这 里 把 师 个 请 求 不 在 同 :设备 上 、 但 是 前 者 的 次 设备 号 小 于 后 者 的 次 设备 号 也 考虑 作 顺 序 。 但 是 ， 
对 于 IDE 接口 ， 是 等 个 设备 一 个 队列 《〈 见 ide get queue( ) 的 代码 )， 所 以 这 一 点 对 IDE 设备 实际 上 不 
起 作用 。 

如 果 找 到 了 符合 要 求 的 操作 请 求 ， 就 把 新 请 求 插入 到 它 的 后 面 ， 从 而 实现 了 某 种 程度 的 优化 。 如 
果 找 不 到， 就 把 新 请 求 挂 在 队列 的 尾 端 ， 也 就 是 说 无 法 优化 了 。 

我 们 在 这 里 不 对 这 些 优 化 作 定量 的 分 析 。 一 个 优化 算法 应 满足 两 个 某 本 要 求 。 一 是 有 效 性 ， 即 在 
多 数 可 以 优化 的 场合 下 真 的 得 到 了 优化 ， 提 高 了 效率 。 :是 公正 性 。 以 合并 为 例 ， 如 采 我 们 每 次 都 从 
队列 的 前 端 开 始 扫描 ， 屠 么 就 有 可 能 发 后 这 样 的 情况 :队列 小原 米 就 已 经 有 很 多 操作 请 求 侍 等 行 卫 ， 
FEAR ET :大批 新 的 操作 请 求 ， 这 些 请 求 恰好 都 可 以 跟 处 十 队 询 前 端的 请 求全 并， 本 是 就 全 部 “加 赛 ” 
搬 到 了 大 量 原 已 在 队列 中 等 待 的 请 求 之 前 。 这 对 于 那些 已 经 在 等 待 的 请 求 来 说 就 不 公平 了 。 在 极端 的 
情况 下 ， 这 些 请 求 其 至 可 能 “ 饿 死 ”(starving) 而 - 直 得 不 到 服务 。 作 为 队列 ， 基 本 上 的 “ 先 来 先 服 务 ” 
原则 还 是 应 该 遵循 的 。 这 就 是 为 什么 在 优化 和 合并 时 都 从 队列 尾 端 开始 向 前 扫描 的 原因 ， 并 且 即 使 从 
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队列 尾 端 开始 向 前 扫描 也 还 应 该 对 扫描 的 距离 加 以 限制 。 最 后 ， 还 有 代价 的 考虑 ， 优 化 的 问题 常常 是 
NP 完全 问题 ， 所 以 在 实际 运用 时 都 要 “ 适 而 可 止 ” 不 能 追求 完美 。 

全 此 ， 将 新 的 请 求 挂 入 操作 请 求 队列 的 任务 已 经 完成 了 ， 在 add_request( ) 中 ， 还 要 检查 一 下 操作 
的 对 象 是 否 若干 种 设备 之 一 (611 一 617 行 ), 如 果 是 就 要 直接 通过 队列 的 函数 指针 request. £n 启动 队列 中 
的 第 一 个 VO 操作 。 回 到 __make_request( ) 中 ， 剩 下 的 事情 只 有 一 件 ， 那 就 是 ， 如 果 操 作 请 求 队列 的 
plugged 标志 为 0, 也 就 是 说 尚未 把 队列 插入 到 tq_disk 中 , 此 时 就 要 直接 通过 队列 的 函数 指针 request. fn 
局 动 队列 中 的 第 一 个 IO 操作 。 正 因为 这 样 ， 代 码 的 作者 在 __make_rrequest( ) 中 加 了 注释 ， 说 既然 有 
了 后 者 就 没有 必要 在 add_request( ) 中 考虑 那些 特殊 情况 了 。 不 过 ， 在 我 们 所 讲 的 情景 中 ， 我 们 假定 在 
-make_request( ) 中 已 经 将 它 插入 bottom-half 的 任务 队列 tq_disk， 所 以 plugged 标志 为 1。 

ZEF, KA 1L_rw_block( ) 的 执行 就 完成 了 ， 注 意 此 时 所 要 求 的 读 /写实 际 上 显然 并 未 完成 。 实 际 的 
读 / 写 是 一 个 异步 的 过 程 ,我 们 无 法 预测 它 究竟 会 在 何 时 发 生 ， 因 此 需要 使 用 或 确认 读 / 写 结果 的 进程 必 
须 等 待 以 取得 同步 。 这 通常 是 通过 wait_on_buffer( ) 完 成 的 。 这 是 一 个 inline 函数 ， 其 代码 在 
include/linux/locks.h 中 : 


17 extern inline void wait_on_buffer (struct buffer_head * bh) 


18 { 

19 if (test bit(BH Lock, &bh->b state)) 
20 — wait on buffer(bh); 

21 ] 


MEAE — wait on buffer( ) 的 代码 在 fs/buffer.c P: 


136 /* 

137 * Rewrote the wait-routines to use the “new” wait-queue functionality, 
138 * and getting rid of the cli-sti pairs. The wait-queue routines still 
139 * need cli-sti, but now it's just a couple of 386 instructions or so. 
140 * 

141 * Note that the real wait on buffer( ) is an inline function that checks 
142 * if 'b wait' is set before calling this, so that the queues aren't set 
143 * up unnecessarily. 

144 */ 

145 void __wait_on_buffer (struct buffer head * bh) 

146 { 

147 struct task struct *tsk = current; 

148 DECLARE WAITQUEUE (wait, tsk); 

149 

150 atomic inc(&bh-5b count); 

15] add wait queue(Kbh-^b wait, &wait): 

152 do { 

153 run task queue(&tq disk): 

154 set task state(tsk, TASK UNINTERRUPTIBLE) ; 

155 if ('buffer_locked (bh) ) 

156 break; 

157 schedule( ); 
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158 } while (buffer locked(bh)); 

159 tsk->state = TASK RUNNING; 

160 remove wait queue (&bh->b wait, &wait); 
161 atomic dec(&bh-^b count); 

162  ] 


阅读 了 本 书 第 4 章 和 第 3 章 的 读者 ， 对 这 段 代 码 应 该 不 会 感到 困难 。 等 待 着 使 用 指定 缓冲 区 的 
WA) 的 进程 在 一 个 等 待 队列 wait 中 睡眠 ， 等 待 操作 的 完成 。 而 对 给 定 缓冲 区 的 操作 是 否 已 经 完成 的 
标志 ， 就 是 为 了 对 缓冲 区 的 操作 所 加 的 锁 是 否 已 被 解除 。 所 以 ， 当 给 定 缓冲 区 的 IO 操作 完成 时 ， 应 
该 为 该 缓冲 区 解锁 ， 并 唤醒 在 该 队列 中 睡眠 的 进程 。 但 是 ， 被 唤醒 并 不 一 定 意 味 着 对 特定 缓冲 区 的 操 
作 已 经 完成 ， 所 以 要 在 一 个 do, while 循环 中 反复 地 测试 和 进入 睡眠 。 另 一 方面 ， 进 程 每 次 在 do_while 
循环 中 进入 睡眠 前 要 通过 run_task_queue( ) 执 行 在 tq_disk 队列 中 的 bottom half 函数 ， 以 确保 对 操作 请 
求 队列 的 执行 已 经 启动 。 不 过 ， 对 run_task_queue( ) 的 调用 实际 上 可 以 来 自 好 多 不 同 的 图 数 和 场合 ， 这 
里 的 调用 并 不 是 惟一 的 。 

不 管 是 从 什么 途径 ， 当 对 tq_disk 队列 调用 run_task_queue( ) 时 ， 就 会 依次 把 队列 中 的 tq struct. 数 
据 结构 从 队列 中 解除 并 通过 其 通 数 指针 routine 调用 相应 的 bottom_half HA. 前 面 讲 过 , 对 于 块 设备 柑 
作 请 求 队列 ， 这 个 函数 是 generic_unplug_device( )， 现 在 我 们 来 看 它 的 代码 ， 这 是 在 1L_rw_blk.c 中 : 


[run_task_queue( ) > run task queue( ) > generic_unplug_device( )] 


367 static void generic unplug device (void *data) 


368 | 

369 request queue t *q = (request queue t *) data; 
370 unsigned long flags; 

371 

372 spin lock irqsave(&io request lock, flags): 

373 | .generic unplug device (q) ; 

374 spin unlock irqrestore(&io request lock, flags); 
3755  ] 


[run task queue()» run task queue( ) > generic unplug. device( ) > __ generic unplug device( )] 


355 /* 
356 * remove the plug and let it rip.. 
357 */ 


358 static inline void __generic_unplug_device (request_queue_t *q) 
359 { 


360 if (q->plugged) { 

361 q~>plugged = 0; 

362 if (!list empty (&q->queue_head) ) 
363 q->request_fn(q) ; 

364 } 

365 } 


在 tq. struct 结构 中 有 一 个 void 指针 data， 用 来 传递 对 bottom-half 函数 的 参数 。 对 寸 操作 请 求 队列 
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结构 中 的 tq. struct 结构 plug tq. SAFRE STRIS] CH XE request, queue 数据 结构 。 只 要 这 个 队列 非 空 
这 里 就 通过 其 函数 指针 request fn 调用 该 队列 的 VO 忆 动 琐 数 。 这 个 启动 函数 是 在 块 设备 初始 化 时 设 午 
好 的 ， 对 于 作为 主 设备 〈primary) 连接 在 IDE 接口 上 的 IDE 使 盘 ， 它 是 do_ide_request( )， 其 代码 在 
drivers/ide/ide.c P: 


[run_task_queue( ) >__run_task_queue( ) > generic unplug device( ) > __generic_unplug_device( ) > 
do ide request( )] 


1377 /* 

1378 * Passes the stuff to ide do request 
1379 */ 

1380 void do ide request(request queue t *q) 
1381 { 

1382 ide do request(g-^queuedata, 0); 
1383 } 


操作 请 求 队列 中 ， 即 request queue t 结构 中 ， 有 个 void 指针 queuedata， 可 以 根据 具体 设备 的 不 同 
而 指 门 不 同 的 对 象 。 对 于 IDE 接口 ， 这 个 指针 指向 一 个 ide_hwgroup_t 数 据 结构 ， 这 也 是 在 ideh 中 定 
义 的 : 


486 /* 

487 * when ide timer expiry fires, invoke a handler of this type 

488 * to decide what to do. 

489 */ 

490 typedef int (idc expiry t)(ide drive t *); 

49] 

492 typedef struct hwgroup s { 

493 ide handler t *handler;/* irq handler, if active */ 

494 volatile int busy; /* BOOL: protects all fields below */ 
495 int sleeping; /* BOOL: wake us up on timer expiry */ 
496 ide drive t *drive; /* current drive */ 

497 ide hwif t *hwif; /* ptr to current hwif in linked-list */ 
498 struct request *rq: /* current request */ 

490 struct timer list timer; /* failsafe timer */ 

500 struct request Wrq; /* local copy of current write rq */ 

50] unsigned long poll timeout; /* timeout value during long polls */ 
502 ide expiry. t *expiry; /* queried upon timeouts */ 


503 } ide hwgroup_t; 


这 个 数据 结构 代表 着 “个 “硬件 组 ”， 实 际 上 是 一 组 IDE 接口 ， 对 属 十 同一 组 的 IDE 接口 〈 以 及 
接口 上 的 磁 玲 不 能 同时 操作 。 不 过 ， 让 人 部 分 情况 下 每 个 IDE 接口 都 能 独立 操作 而 互 不 影响 ， 因 和 而 
所 谓 一 组 IDE 接口 只 包括 - -个 IDE 接口 。IDE 接口 是 由 ide hwif t 数据 结构 代表 的 ， 内 核 中 有 个 
ide hwif t 数组 ide_hwifs| ]， 以 IDE 接口 的 编号 为 下 标 。 


191 ide hwif t — ide hwifs|MAX HWIFS]; /* master data repository */ 
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EE 一 

x HY) MAX HWIFS 定义 为 6。 一 般 的 PC LAY IDE mMin, Al xA RT. UU 
外 还 有 一 个 IDE PARE, TEE at AUR IDE 接口 上 了 。 数 组 ide_bwifs[ ] 中 的 每 个 元 素 都 是 一个 
ide hwif t 数据 结构 ， 代 表 着 系统 中 的 个 IDE RT, 定义 于 include/linux/ide.h 中 


421 
422 
423 
424 
425 
426 
427 
428 
429 
430 
431 
432 


433 
434 
435 
436 
437 


438 
439 
440 
44] 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
457 
458 
459 
460 
461 


typedef struct hwif s | 


struct hwif s  -*next; /* for linked-list in ide hwgroup t */ 
void *hwgroup; /* actually (ide hwgroup t *) */ 

ide ioreg t io ports[IDE NR PORTS]; /* task file registers */ 

hw regs t hw; /* Hardware info */ 

ide drive t drives[MAX DRIVES]; /* drive info */ 

struct gendisk *gd; /* gendisk structure */ 

ide tuneproc t *tuneproc, /* routine to tune PIO mode for drives */ 
ide speedproc t *speedproc; /* routine to retune DMA modes for drives */ 
ide selectproc t *selectproc; /* tweaks hardware to select drive */ 


ide resetproc_t *resetproc;/* routine to reset controller after a disk resct */ 
ide intrproc t *intrproc; 

/* special interrupt handling for shared pci interrupts */ 
ide maskproc t -*maskproc; /* special host masking for drive selection */ 
ide quirkproc t *quirkproc; /* check host's drive quirk list */ 


ide rw proc t ‘*rwproc; /* adjust timing based upon rq->cmd direction */ 
ide dmaproc t *dmaproc; /* dma read/write/abort routine */ 
unsigned int *dmatable cpu; 


/* dma physical region descriptor table (cpu view) */ 
dma addr t  dmatable dma; /* dma physical region descriptor table (dma view) */ 
struct scatterlist *sg table; /* Scatter-gather list used to build the above */ 


int sg nents; /* Current number of entries in it */ 

int sg dma direction; /* dma transfer direction */ 

struct hwif s ‘*mate; /* other hwif from same PCI chip */ 
unsigned long dma base; /* base addr for dma ports */ 

unsigned dma extra; /* extra addr for dma ports */ 

unsigned long config data; /* for use by chipset-speci fic code */ 
unsigned long select data; /* for use by chipset-specific code */ 
struct proc dir entry *proc; /* /proc/ide/ directory entry 来/ 

int irg; /* our irq number */ 

byte ma jor; /* our major number */ 

char name[6] ; /* name of interface, eg. ”ide0” */ 

byte index; /* 0 for ide0; 1 for idel; ... */ 

hwif chipset t chipset; /* sub-module for tuning.. */ 

unsigned noprobe 1; /* don’t probe for this interface */ 
unsigned present ie /* this interface exists */ 
unsigned serialized : 1; /* serialized operation with mate hwif 炒 / 
unsigned sharing irq: 1; /* | = sharing irq with another hwif */ 
unsigned reset us /* reset after probe */ 

unsigned autodma l; /* automatically try to enable DMA at boot */ 
unsigned udma four l; /* 1=ATA-66 capable, O=default */ 

byte channel ; /* for dual-port chips: O-primary, |-secondary */ 


tifdef CONFIG BLK DEV IDEPCT 
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462 struct pci dev pci dev; /* for pci chipsets */ 

463 ide pci devid t pci devid; /* for pci chipsets: {VID, DID} */ 
464 #endif /* CONFIG BLK DEV IDEPCI */ 

465 #if (DISK RECOVERY TIME > 0) 

466 unsigned long last time; /* time when previous rq was done */ 
467 #endi f 

468 byte straight8; /* Alan' s straight 8 check */ 

469 void *hwif data; /* extra hwif data */ 


470 | ide hwif t; 


结构 中 的 数组 drives[ ] 对 应 着 可 以 连接 到 同一 个 IDE 接口 上 的 若干 个 便 稚 ， 常 数 MAX. DRIVES 
定义 为 2， 所 以 数组 的 大 小 为 2。 指针 hwgroup 就 指向 一 个 ide hwgroup. t 结构 ， 

通常 ， 每 个 IDE 接口 都 有 一 个 ide hwgroup t 数据 结构 ， 二 者 以 它们 的 指针 hwgroup 和 hwif HA8 
指向 对 方 。 同 一 个 IDE 接口 上 的 两 个 磁盘 不 能 同时 操作 , 所 以 ide_hweroup_t 结构 代表 着 一 组 不 能 同时 
操作 而 必须 把 对 它们 的 操作 “品行 化 ”的 磁盘 。 但 是 ， 也 有 些 IDE 接口 卡 把 两 个 IDE 接口 做 看 -起 而 
不 能 同时 操作 ， 于 是 就 共用 “个 ide_hwgroup_t 数据 结构 ， 此 时 两 个 ide hwif t 结构 就 要 通过 它们 的 指 
针 next 链接 在 一 起 ， 而 ide hwgroup t 结构 中 的 hwif 指针 则 指向 当前 IDE 接口 。 所 以 ide hwgroup t 
是 比 ide hwif t 喝 高 一 层 的 数据 结构 。 也 就 是 说 : 

e RA ide hwgroup 数据 结构 代表 着 一 纽 不 能 同时 操作 的 IDE 接口 。 

© 5^ ide hwit t 数据 结构 代表 着 一 个 IDE 接口 ， 也 就 是 -组 不 能 同时 操作 的 IDE 设备 ， 

ide hwif t 结构 中 有 个 ide drive t 结构 数组 。 

€ ide drive t 数据 结构 代表 着 -个 IDE RA. 

在 PC 机 中 ， 通 常 一 个 “硬件 组 ”只 包含 个 IDE 接 门 ， 而 一 个 IDE 接口 包含 一 个 或 两 个 人 磁 盘 ， 

SIDE 设备 ， 即 jide_drive t 数 据 结构 ， 都 有 睛 己 的 操作 请 求 队列 ， 但 是 整个 1DE 接口 组 只 能 有 
一 个 “当前 操作 请 求 ” 即 正在 为 之 服务 的 操作 请 求 ，ide_hwgroup_t 结构 中 的 指针 rq 就 指 问 这 个 请 求 
的 request 数据 结构 。 


SAX: 


1254 /* 

1255 * Issue a new request to a drive from hwgroup 

1256 * Caller must have already done spin lock irqsave(&io request lock, ..); 

1257 * 

1258 * À hwgroup is a serialized group of IDE interfaces. Usually there is 

1259 * exactly one hwif (interface) por hwgroup, but buggy controllers (eg. CMD640) 
1260 * may have both interfaces in a single hwgroup to “serialize” access. 

1260 * Or possibly multiple ISA interfaces can share a common IRQ by being grouped 
1262 * together into one hwgroup for serialized access. 

1263 * 

1264 * Note also that several hwgroups can cnd up sharing a single IRQ, 

1265 * possibly along with many other devices. This is especially common in 

1266 * PCi-based systems with off-board IDE controller cards. 

1267 * 
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1268 
1269 
1270 
1271 
1272 
1273 
1274 
1275 
1276 
1277 
1278 
1279 
1280 
1281 
1282 
1283 
1284 
1285 
1286 
1287 
1288 


The IDE driver uses the single global io request lock spinlock to protect 
access to the request queues, and to protect the hwgroup-?busy flag. 


The first thread into the driver for a particular hwgroup sets the 
hwgroup-»busy flag to indicate that this hwgroup is now active, 
and then initiates processing of the top request from the request queue. 


Other threads attempting entry notice the busy setting, and will simpiy 
queue their new requests and exit immediately. Note that hwgroup-^busy 
remains set even when the driver is merely awaiting the next interrupt. 
Thus, the meaning is "this hwgroup is busy processing a request”. 


When processing of a request completes, the completing thread or IRQ-handler 
will start the next request from the queue. If no more work remains, 
the driver will clear the hwgroup->busy flag and exit. 


The io request lock (spinlock) is used to protect all access to the 
hwgroup->busy flag, but is otherwise not needed for most processing in 
the driver. This makes the driver much more friendlier to shared TRQS 
* than previous designs, while remaining 100% (?) SMP safe and capable. 


*/ 


* X04 0X 关 关 0X 关 OK KR X0 Ke KH 0X KH KF X X 其 


读 少 串 以 先 大 致 看 -下 ， 然 后 在 阅读 有 关 的 代码 时 再 同 过 米 细 读 。 下 而 是 函数 的 代码 : 


[run_task_queue( ) > . run task, queue( ) > generic_unplug_device( ) > __generic_unplug_device( ) | 
> do ide request( ) > ide_do_request( )] 3 


1289 
1290 
1291 
1292 
1293 
1294 
1295 


1296 
1297 
1298 
1299 
1300 
1301 
1302 
1303 
1304 
1305 
1306 
1307 


S 


{ 


tatic void ide do request (ide hwgroup t *hwgroup, int masked irg) 


ide drive t *drive; 
ide hwif t ‘*hwif: 
ide startstop t startstop: 


ide got lock(&ide lock, ide intr, hwgroup); 
/* for atari only: POSSIBLY BROKEN HERE(?) */ 


cli( ); /* necessary paranoia: ensure IRQs are masked on local CPU */ 


while (!hwgroup->busy) { 
hwgroup->busy = l; 
drive = choose drive (hwgroup) ; 
if (drive == NULL) { 
unsigned long sleep = 0; 
hwgroup-?rq = NULL; 
drive = hwgroup->drive; 
do { 
if (drive->sleep && 
(!sleep || 0 € (signed long) (sleep - drive~>steep))) 
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1308 
1309 
1310 
1311 
1312 
1313 
1314 
1315 
1316 
1317 
1318 
1319 
1320 
1321 
1322 
1323 


1324 
1325 
1326 
1327 


1328 
1329 
1330 
1331 
1332 
1333 
1334 


1335 
1336 
1337 
1338 
1339 
1340 
1341 
1342 
1343 
1344 
1345 
1346 
1347 
1348 
1349 
1350 
1351 
1352 


#if 1 


#endif 
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sleep = drive~>sleep; 


) while ((drive = drive->next) != hwgroup->drive) ; 
if (sleep) { 


/* 
* 
* 


* 


* 


*/ 


if 


1f 


Take a short snooze, and then wake up this hwgroup again. 
This gives other hwgroups on the same a chance to 

play fairly with us, just in case there are big differences 
in relative throughputs.. don t want to hog the cpu too much. 


(0 < (signed long) (jiffies + WAIT MIN SLEEP - sleep)) 
sleep - jiffies * WAIT MIN SLEEP; 


(timer pending (&hwgroup~>timer) ) 
printk( ide set handler: timer already activeNn ) ; 


hwgroup >sleeping = 1; 


/* so that ide timer_expiry knows what to do */ 


mod timer (&hwgroup->timer, sleep); 


/* 
} else 


/* 


we purposely leave hwgroup->busy==1 while sleeping */ 
{ 

Ugly, but how can we sleep for the lock otherwise? 
perhaps from tq disk? */ 


ide release lock(&ide lock); /* for atari only */ 
hwgroup->busy = 0; 


| 


return; 


} 


/* no more work for this hwgroup (for now) */ 


hwif = HWIF (drive) ; 
if (hwgroup->hwif->sharing_ irq && hwif !- hwgroup-^5hwif && 


/* set 


SELECT_ 


} 


hwif->io_ports|IDE CONTROL OFFSET]) | 
nIEN for previous hwif */ 
INTERRUPT (hwif, drive); 


hwgroup-?hwif = hwif; 
hwgroup-?drive = drive; 
drive->sleep = 0; 
drive->service start = jiffies; 


if ( drive- 


>queue. plugged ) /* paranoia */ 


printk(“%s: Huh? nuking plugged queue\n”, drive—>name) ; 
hwgroup->rq = blkdev_entry_next_request (&drive->queue. queue head); 


/* 


the [RQ 


happens 
— the 


* * 关 Xo X X* 


Some systems have trouble with IDE IRQs arriving while 
the driver is still setting things up. So, here we disable 


uscd by this interface while the request is being started. 


This may look bad at first, but pretty much the same thing 


anyway when any interrupt comes in, IDE or otherwise 
kernel masks the TRQ while it is being handled. 
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1353 */ 

1354 if (masked irq && hwif->irq !- masked irg) 
1355 disable irq nosync (hwif-^irq): 

1356 spin unlock(&io request lock); 

1357 ide :stit 2? /* allow other IRQs while we start this request */ 
1358 startstop = start request (drive); 

1359 spin lock irq(&io request lock); 

1360 if (masked irg && hwif->irg !- masked irq) 
1361 enable irq(hwif »irg); 

1362 if (startstop == ide stopped) 

1363 hwgroup->busy = 0; 

1364 } 

1365 } 


对 于 i386 结构 的 CPU, ide_get_lock() RE—-TbSAR. BIN, SEMPRE eR, AA 
容许 受到 干扰 。 所 以 这 里 采取 了 最 为 严 历 的 措施 ， 即 通过 __cli( ERRAR, ERENS a PA 
生 ， 也 不 会 有 进程 调度 发 生 了 。 那 么 ， 在 SMP 多 处 理 器 结构 的 系统 中 来 自 其 他 CPU 的 十 扰 呢 ? 那 也 
已 经 考虑 到 了 ,请 局 过 去 看 generic_unplug_device( ) 的 代码 ,通过 函数 指针 request. fn 对 do_ide_request( ) 
的 调用 是 在 由 spin_lock_irqsave( ) 和 spin_unlock_irqrestore( ) 轩 成 的 临界 区 中 进行 的 ， 一 全 CPU 进入 了 
这 个 区 域 就 把 大 门 锁 上 了 ， 别 的 CPU 想 草 进来 就 只 好 在 spin_lock_irqsave( ) 中 等 待 。 

然后 ， 只 要 IDE 接口 不 是 正在 忙 ， 就 可 以 进入 while 循环 的 循环 体内 ， 并 且 马 上 就 把 这 个 IDE 接 
ORY busy 标志 设 成 1， 又 关上 了 一 道门 。 这 道门 一 关上 ， 即 使 把 外 层 的 大 门 打开 ， 例 如 把 中 断 打 开 ， 
也 不 会 有 其 他 进程 〈 或 中 断 服 务 程 序 ) 能 进入 这 个 while 循环 了 。 不 过 ， 岗 在 还 不 能 把 中 断 打 开 ， 因 为 
中 断 服务 程序 有 可 能 不 经 由 这 里 的 while fii BEV In] IDE 接口 造成 干扰 。 

由 于 同一 个 IDE 接 门 上 可 能 有 不 止 -个 磁盘 , 这 时 候 就 要 确定 接 下 去 到 底 是 对 哪 一 个 磁盘 操作 。 
这 就 是 调用 choose drive( ) 的 目的 。 如 前 所 述 ， 在 ide hwif t 数据 结构 中 有 个 ide drive t. 结构 数组 
drives[ ]， 而 相应 的 ide_hwgroup_t 结构 中 则 有 一 个 ide drive t 结构 指针 drive, ‘tEn FRÈ drivesl ] 数 
组 中 的 个 数据 结构 ， 这 就 是 整个 组 的 当前 磁 找 。 不 过 ， 这 个 指针 所 指向 的 实际 上 是 个 环形 链 ， 因 为 
存在 于 同一 IDE 接口 上 的 所 有 磁盘 所 对 应 的 ide_drive_t 数据 结构 者 通过 结构 中 的 next 指针 连 成 一 个 环 
形 链 。 所 以 choose_drive( ) 的 任务 就 是 扫描 这 个 环形 链 ， 察 看 每 个 ide_drive_t 结构 中 的 操作 请 求 队 列 ， 
以 确定 哪 一 个 做 盘 应 该 起 下 一步 的 操作 对 象 。 

此 处 先 请 读者 暂时 停 一 下 ， 先 将 上 面 提 到 的 有 关 IDE 使 盘 驱 动 的 几 个 数据 结构 以 及 相互 之 问 的 天 
系 总 结 一下， 并 画 出 联系 图 。 这 对 程序 理解 会 有 好 处 。 | 

前 面 说 过 ， 同 一 个 “硬件 组 ”” 即 共用 同一 个 ide_hweroup_t 结构 的 鳃 盘 《〈 通 常 在 同一 个 IDE 接口 
E) 是 不 能 同时 操作 的 。 但 是 ， 这 句 话 不 够 确切 。 更 确切 地 应 该 说 是 不 能 同时 启动 操作 ， 或 者 说 不 能 
同时 向 两 个 硬盘 发 出 操作 命令 ， 两 个 磁盘 的 物理 操作 《〈 例 如 移动 磁头 然后 读 出 ) 完全 可 以 并 行 。 当 间 
“个 硬盘 发 出 操作 命令 启动 其 操作 的 时 候 , 就 在 相应 ide_drive_t 数据 结构 里 的 service. start 字段 中 记 下 
当时 的 时 间 ， 根 据 这 个 起 始 时 间 以 及 具体 操作 的 大 小 就 可 以 估计 出 这 个 拘 作 完成 的 时 间 。 另 方面 ， 
每 当 一 个 井 作 完 成 〈 或 办 超时 和 而 失败 》 时， 可 以 根据 当时 的 时 间 和 操作 的 局 动 时 间 计 算出 本 次 操作 实 
际 耗 用 的 时 间 。 这 个 时 间 记 录 在 相应 ide, drive, t 结构 中 的 sevice time 字段 中 ， 可 以 用 作 共 体 硬 由 操作 
速度 的 --… 个 参考 值 。 在 某 些 场合 下 ， 还 可 以 在 自愿 的 基础 上 《ide_drive_t 结构 中 的 nicel 标志 为 1) 将 
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个 使 盘 投 入 睡 眼 状 态 ， 也 就 是 在 预定 的 某 个 时 间 之 前 不 对 其 进行 操作 ， 这 个 预定 的 时 间 就 记录 在 
ide drive t 结构 里 的 sleep 字段 中 。 不 过 要 注意 ， 这 里 所 说 的 是 在 一定 的 时 间 内 不 对 其 进行 操作 ， 也 就 
是 个 癌 其 发 出 操作 命令 ， 但 是 这 并 不 意味 着 企 这 段 时 间 内 它 就 一 定 弟 在 空转 ， 只 不 过 是 佑 计 在 此 之 前 
正在 进行 中 的 操作 肯定 不 会 完成 而 已 。 在 挑选 下 一 个 操作 对 象 时 ， 这 些 因 素 孝 应 该 考虑 进去 。 函 数 
choose drive( ) 的 代码 在 ide.c 中 ， 我 们 就 把 它 留 给 谈 者 了 。 

挑选 下 一 个 操作 对 和 象 的 结果 有 可 能 是 空 。 原 因 可 能 有 一 ， 一 是 所 有 磁盘 的 拘 作 请 求 队列 才 是 内 ， 
内 而 无 事 可 干 ; 二 是 所 有 的 磁盘 都 在 睡眠 状态 ， 不 能 向 它们 发 出 操作 命令 。 所 以 ， 代 码 中 通过 - -个 
do while ffi? dii ide, drive t 结构 的 环形 链 ， 找 出 其 小 最 旱 的 睡 陪 结束 时 间 。 如 果 这 个 最 早 的 结束 时 
HE 0， 邦 就 说 明 找 不 出 … 个 操作 对 象 的 原因 确 是 因 上 有 睡眠 引起 的 ， 央 此 将 ide hwgroup t 结构 中 的 
sleeping 标志 设 成 1， 胡 示 整 个 做 模 组 帮 在 睡眠 (1323 行 )， 同 时 设置 一 个 定时 器 ， 让 它 在 到 点 的 时 候 将 
该 ide_hwgroup_t 结构 “唤醒 ”。 和 否则 ， 如 果 最 音 的 睡 眼 结束 时 间 为 0， 就 涪 明 该 组 磁 检 的 操作 请 求 队 
列 全 足 空 的 ， 所 以 把 它 的 busy 标志 设 成 0。 上 既然 没有 下 个 操作 对 和 象 ， 本 次 ide_do_reguest( LZ T 

CM, 1331 行 )。 

如 果 找 到 了 下 一 个 操作 对 象 ( 匈 1333 行 )， 那 就 先 找到 该 操作 对 象 ， 即 做 舟 所 属 的 IDE 接口 ， 这 里 
宏 操 作 HWIF 的 定义 见 include/linux/ide.h: 


96 #define HWIF (drive) ((ide hwif t *) ((drive)->hwif)) 


污 者 也 许 感到 奇怪 ， 在 ide_hwgroup_t 结构 中 不 是 有 个 指针 hwif 指向 当前 ide_hwif t 数据 结构 吗 ? 
是 的 , (HAE RAPA IDE 接口 共用 同 个 ide ibd t 结构 的 话 , 新 挑选 的 ide_drive_t 结构 可 能 不 
属于 原先 的 “当前 IDE 接口 ” PARE CUL 1334 行 )， 赤 就 意味 着 IDE 接口 的 切换 ， 这 时 
f ht 32 e ER IDE 接口 的 控制 寄存 器 par JL 133447) 写 SPS IEDR HE ik 
KAR. BARE SELECT. INTERRUPT 定义 于 include/linux/ide.h: 


189 #define SELECT. INTERRUPT (hwif, drive) b: 

190 { \ 

191 if (hwif-intrproc) X 

192 hwif->intrproc (drive); \ 

193 else \ 

194 OUT BYTE ((drive)~>ctl 2, hwif->io_ports[IDE. CONTROL. OFFSET) ;^ 
195 } 


而 宏 操作 OUT. BYTE 的 第 1 个 参数 为 需要 写 出 的 字 节 ， 当 这 个 字 池 的 bitl 为 1 时， 该 IDB 接口 的 
中 断 请 求 就 被 屏 责 掉 了 。 第 2 个 参数 为 寄存 器 的 VO 地 址 ， 代 表 着 具体 IDE 接口 的 ide_hwif_t 结构 中 
有 个 数组 io_ports[ ]， 该 数组 提供 了 接口 上 各 个 寄存 器 的 IO 地 址 。 

然 乒 ， 就 可 以 使 ide_hwgroup t 结构 中 的 指针 hwif 和 drive 指向 新 的 当前 IDE RELURIRLEE T . 全 
局 量 jiffies 代表 当前 时 间 《〈 见 第 3 革 )， 这 就 是 本 次 操作 的 启动 时 间 sevice_start。 代 码 中 还 对 操作 对 和 象 

接着 ， 使 指针 hwgroup->rq 指向 操作 请 求 队列 中 的 第 ， 个 操作 请 求 〈 但 不 将 其 从 队列 中 脱 链 )， 这 
就 是 当 亲 操作 请 求 。 

全 此 ， 整 个 系统 的 中 断 仍 起 关 着 的 ， 但 是 马上 就 此 把 它 打 开 了 ( 见 1357 行 )， 央 为 为 了 个 具体 
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的 设备 而 长 时 间 关 闭 全 系统 的 中 断 机 制 吓 不 合适 的 。 可 是 ， 对 当前 磁盘 的 操作 仍 不 允许 打 执 ， 所 以 ， 
在 打开 全 系统 的 中 断 之 前 可 能 需要 先 遂 过 disable_irg_nosyne( ) 将 具体 的 中 汤 服 务 程序 关闭 ， 也 就 是 说 
在 打开 大 门 之 前 先 把 里 面具 体 房间 的 门 关 上 。 不 过 ， 这 也 是 有 条 件 的 ， 这 里 masked_irg 想 作 为 参数 从 
do_ide_request( ) 传 下 来 的 ， 从 它 的 代 但 中 二 以 看 到 这 个 参数 是 0， 所 以 这 里 1354 行 过 诸 他 的 条 件 不 会 
得 到 满足 ， 也 就 是 说 不 必 先 把 里 面 愉 体 房间 的 门 关 于。 如 前 所 述 ， 在 我 们 这 条 执行 路 线 小 实际 上 已 经 
关上 了 -: 道 门 ， 那 就 是 IDE 接口 的 busy 标志 。 

做 好 了 这 些 准备 ,现在 可 以 根据 具体 的 操作 请 求 向 目标 位 检 发 出 操作 命令 了 ,这 是 由 start_request( ) 
完成 的 ， 其 代码 在 ide.c 中 。 读 者 将 会 看 到 ， 这 是 一 个 很 重要 的 冰 数 。 


[run task queue( ) > __run_task_queue( ) > generic_unplug_device( ) > __generic_unplug_device( ) 
> do ide request( ) > ide do request( ) > Start_request( )] 


1129 /* 
1130 * start request( ) initiates handling of a new I/O request 
1131 */ 
1132 static ide startstop t start request (ide drive t *drive) 
1133 | 
1134 ide startstop t startstop; 
1135 unsigned long block, blockend; 
1136 struct request *rq = blkdev entry next request (&drive~>qucue. queue head) ; 
1137 unsigned int minor = MINOR(rq—^rq dev), unit = minor >> PARTN BITS; 
1138 ide hwif t *hwif = HWIF (drive) ; 
1139 
1140 &ifdef DEBUG 
1141 printk(^4s: start request: current-0x*081xWn^, hwif->name, (unsigned long) rq) ; 
1142 #endif 
1143 if (unit >= MAX_DRLVES) { 
1144 printk(“%s: bad device number: %s\n”, hwif-^name, kdevname(rq->rq_dev)); 
1145 goto kill ra; 
1146 } 
1147 #ifdef DEBUG 
1148 if (rq->bh && !buffer locked(rq—>bh)) | 
1149 printk("*s: block not locked\n”, drive->name) ; 
1150 goto kill rq; 
1151 ) 
1152 BSondif 
1153 block = rq->sector; 
1154 blockend = block + rq-?nr sectors; 
1155 
1156 if ((rq—>cmd == READ | rq->cmd == WRITE) && 
1157 (drive->media == ide disk || drive->media — ide _floppy)). { 
1158 if ((blockend € block) | | 
(blockend > drive->part [minor&PARTN MASK]. nr sects)) { 
1159 printk(“%s%c: bad access: block=%ld, count=%ld\n”, drive->name, 
1160 (minor&PARTN MASK)?’ 0’ +(minor&PARTN MASK):' ', block, rq->nr_sectors) ; 
1161 goto kill rq; 


.297 . 


Linux 内 核 源 代码 情景 分 析 (ba 


1162 } 
1163 block += drive->part [minor&PARTN MASK]. start sect + drive sect0; 
1164 } 
1165 /* Yecch - this will shift the entire interval, 
1166 possibly killing some innocent following sector */ 
1167 if (block == 0 && drive->remap 0 to 1 == 1) 
1168 block = 1; /* redirect MBR access to EZ-Drive partn table */ 
1169 
1170 #if (DISK RECOVERY TIME > 0) 
1171 while ((read timer( ) - hwif->last time) < DISK RECOVERY TIME): 
1172 Bendif 
1173 
1174 SELECT DRIVE(hwif, drive): 
1175 if (ide wait stat(&startstop, drive, drive-»ready stat, 
BUSY STAT|DRQ STAT, WAIT READY)) | 
1176 printk( 4s: drive not ready for command\n”, drive->name) :; 
1177 return startstop; 
1178 } 
1179 if (!drive->special.all) { 
1180 if (rq->cmd == IDE DRIVE CMD !| rq->emd == IDE_DRIVE TASK) { 
1181 return execute drive cmd(drive, rq); 
1182 } 
1183 if (drive->driver != NULL) { 
1184 return (DRIVER (drive)-—>do_request (drive, rq, block)); 
1185 } 
1186 printk(“%s: media type Xd not supported\n”, drive->name, drive—>media): 
1187 goto kill rq; 
1188 } 
1189 return do special (drive); 
1190 kill_rq: 
119] if (drive->driver != NULL) 
1192 DRIVER (drive) ->end_request (0, HWGROUP (drive)): 
1193 else 
1194 ide_end_request (0, HWGROUP (drive)) : 
1195 return ide stopped; 
1196  ] 


首先 是 对 参数 的 检查 。 这 里 的 局 部 量 block Al blockend 代表 着 操作 的 起 始 扇 区 号 和 结束 扇 区 号 ， 
而 不 是 逻辑 块 号 。 信 得 注意 的 是 1163 行 ， 如 果 所 操作 的 “磁盘 ”实际 上 只 是 磁盘 上 的 .个 分 区 ， 那 就 


ide drive t 结构 中 的 数组 part[ ] 提 供 了 各 个 分 区 的 参数 ， 包 括 各 个 分 区 的 起 始 罗 辑 肩 区 号 。 这 个 鹿 区 号 
ZINA “WARS”, 是 因为 磁盘 上 存在 着 一 个 “分 区 表 ” 这 个 分 区 表 使 远 辑 上 的 扇 区 0 移 
到 了 另 一 个 物理 位 置 上 ， 这 个 位 置 就 是 drive->sect0。 此 外 ， 在 有 了 磁盘 分 区 存在 的 情况 下 ， 有 可 能 些 将 
用 于 引导 块 的 扇 区 0 BRT BRK 1 上 ， 此 时 ide drive t 结构 中 的 remapO to. 1 标志 为 1《 见 1167 行 )。 
这 些 信息 都 是 在 块 设备 初始 化 时 设置 好 了 的 。 
有 些 做 盘 在 相继 的 两 次 操作 之 问 要 有 个 “恢复 时 间 ” 对 这 样 的 做 可 要 通过 1171 行 的 while 循 坏 保 
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证 其 恢复 时 间 ， 但 是 大 多 数 磁盘 都 没有 这 个 要 求 。 
直面 的 SELECT_DRIVE ARIRE, + SELECT_INTERRUPT 相似 ， 其 定义 见 ide.h: 


182 tdefine SELECT DRIVE (hwif, drive) \ 

183 i \ 

184 if (hwif->selectproc) \ 

185 hwif->selectproc (drive) ; \ 

186 QUT_BYTE ((drive)->select. all, hwif-»io ports[JDE SELECT OFFSET]): ^ 
187.  ] 


有 些 IDE BAERS AG " Ub de RES ATF AR C 之 前 先 执行 一 些 特殊 的 处 理 ， 所 以 这 样 的 
设备 可 以 将 相应 ide. drive 结构 中 的 函数 指针 selectproc 预先 设置 好 ， 这 里 就 可 以 通过 函数 指针 调用 这 
个 函数 了 。 但 是 - - 般 IDE 磁盘 都 没有 这 个 要 求 。 这 里 主要 是 设置 使 盘 的 “了 驱动 器 /磁头 选择 寄存 问 ”， 
这 个 8 位 寄存 器 的 格式 如 几 8.6 所 示 。 







四 位 磁头 
DVR: 0 表示 主 设备 〈 旭 磁盘 0)，1 ERARA CBE D 
L: 0 表示 CHS 模式 ，1 表示 LBA 模式 





图 8.6 ”驱动 器 /磁头 选择 寄存 器 格式 定义 


相应 的 数据 结构 定义 于 include/asm_i386/ide.h 中 : 


89 typedef union { 


90 unsigned all LOB. /* all of the bits together */ 

91 struct | 

92 unsigned head : 4; /* always zeros here */ 

93 unsigned unit T /* drive select number, 0 or 1 */ 
94 unsigned bit’ Eq /* always 1 */ 

95 unsigned lba : 1; /* using LBA instead of CHS */ 

96 unsigned bit7 can /* always 1 */ 

97 } b; 


98 ) select t; 


对 IDE 磁盘 上 的 局 区 有 两 种 不 同 的 寻 址 方式 。 第 一 种 是 所 谓 CHS CATERED BOX. ULT 

“了 驱动 器 /做 头 选 择 寄存 器 ”中 只 有 4 位 用 于 磁头 选择 ， 最 多 就 只 能 有 16 个 做 头 。 同 时 ， 另 外 两 个 用 

于 柱 面 号 的 寄存 器 又 将 柱 面 数 限 制 到 1024 s A 区 号 寄存 器 又 将 (每 磁道 ) 扇 区 的 数量 限制 到 256. 可 十 ， 

一 把 一 个 辐 ( 磁 道 ) 划 分 成 256 个 扇 区 是 有 困难 的 ， 所 以 实际 上 只 能 划分 成 64 BK. RAK, BER 

的 总 量 就 限制 为 1024X16X64=1 M， 册 十 每 个 扁 区 的 容量 为 512 FW, IDE 磁 鹤 的 总 容量 就 被 限制 为 

05 GB。 为 了 克服 这 个 缺点 ， 在 “扩充 IDE” 的 标准 中 又 提供 了 -种 LBA (逻辑 块 号 ) BOX, HET 
. 299 . 


Linux 内 核 源 代码 情景 分 析 ( 下 册 ) 

磁 玫 看 作 连 续 的 逻辑 肩 区 阵列 ， 而 由 IDE 磁盘 (更 确切 地 说 是 EIDE 磁盘) H 忆 进 行 从 逻辑 扇 区 号 到 
EHS RK AKKP, E, HKU FERE HAT, 加 上 原来 用 于 扇 区 号 的 寄存 器 ， 
和 髓 加 上 原来 用 于 磁头 号 的 4 位， 一 共有 28 位 用 于 逻辑 区 号 ， 使 理论 的 最 大 容量 达到 了 128 GB. 将 
旨 动 器 /磁头 选择 寄存 器 小 的 bit6 设置 成 1， 就 使 磁 科 工作 于 LBA Bist. 

HEIDE 设备 有 些 特殊 操作 ， 例 如 在 每 次 读 / 写 以 后 都 要 让 磁 得 回 到 0 号 柱 面 等 等 ， FEIRER R A 
UAE PE TR ERIT R. HT REBET RER D HE, ide_drive_t 结构 中 设置 了 一 个 字 
段 special， 它 的 类 型 是 special_t， 定 义 见 include/linux/ide.h: 


268 typedef union { 


269 unsigned all : 8; /* all of the bits together */ 
.270 struct { 

271 unsigned set geometry  : 1; /* respecify drive geomctry */ 
212 unsigned recalibrate l; /* seek to cyl 0 */ 

213 unsigned set multmode l; /* set multmode count */ 

274 unsigned set tune E /* tune interface for drive */ 
275 unsigned reserved A ke /* unused */ 

276 Fbi 


277 | special t; 


块 设备 初始 化 时 , 如果 具体 的 磁盘 有 特殊 要 求 ， 就 相应 地 设置 其 ide drive t 结构 中 这 个 字段 的 值 ， 
否则 设置 成 0。 

先 看 没有 特殊 要 求 的 情景 ( 见 1179 行 )， 这 是 主流 。 对 IDE HED 的 操作 可 以 分 成 两 类 。 -类 是 起 
控制 作用 的 命令 ， 如 单纯 的 磁头 定位 、 自 检 、 光 截 驱动器 的 关门 / 开 门 等 。 这 一 类 的 命令 由 
execute_drive_cmd( ) 司 动 ， 这 些 操 作 请 求 通常 不 是 由 用 户 进程 (应 用 程序 ) 发 出 的 。 另 类 就 是 我 们 所 
关心 的 数据 读 / 写 命令 ， 通 过 具体 设备 的 驱动 函数 跳 转 表 ， 即 ide, driver t 结构 中 的 函数 指针 do_request 
局 动 ， 宏 操作 DRIVER 的 定义 见 include/linux/ide.h: 


620 #define DRIVER (drive) ((ide driver t *) ((drive)—>driver)) 


AWBIPTXA, ide drive t 数据 结构 中 有 个 指针 driver， 指 向 一 个 ide driver t 数据 结构 (注意 不 要 混 
清 这 两 种 不 同 的 数据 结构 )， 这 就 是 具体 设备 的 驱动 函数 跳 转 表 。 例 好 ， 一 般 IDE BEREH Ny 
idedisk driver, J6Zt3Kz/ 23050 BE BFE ide cdrom driver, #AtW MAE A idefloppy. driver, IDE 磁带 
SEA SR ER IIO idetape, driver, GIR, RAPHE £i EIUS file_operations 数据 结构 的 作用 ， 其 
类 型 定义 见 ide.h: 


599 typedef struct ide driver s { 


600 const char *name; 

601 const char *version; 

602 byte media; 

603 unsigned busy Hae 

604 unsigned supports dma ae cee 

605 unsigned supports dsc overlap  : 1; 
606 ide cleanup proc *cleanup; 
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0 


607 ide do request proc *do request; 
608 ide end request proc *end request; 
609 ide ioctl proc *ioctl; 

610 ide open proc *open; 

61i ide release proc *release; 

612 ide check media change proc *media change; 
613 ide revalidate proc *revalidate; 
614 ide pre reset proc *pre reset; 
615 ide capacity proc *capacity; 
616 ide special proe *special; 

617 ide proc entry t *proc; 


618 ) ide driver t; 


数据 结构 idedisk. driver 的 值 定义 于 ide.c 中 ， 为 阅读 方便 再 次 把 它 列 出 如 下 : 


711 /* 

112 * IDE subdriver functions, registered with ide.c 
713 */ 

714 static ide driver t idedisk driver = { 

715 "ide-disk', /* name */ 

716 IDEDISK VERSION, /* version */ 

717 ide_disk, /* media */ 

718 0, /* busy */ 

719 l, /* supports_dma */ 
720 0, /* supports dsc overlap */ 
721 NULL, /* cleanup */ 

722 do rw disk, /* do request */ 
723 NULL, /* end request */ 
724 NULL, /* ioctl */ 

725 idedisk open, /* open */ 

126 idedisk release, /* release */ 

727 idedisk media change, /* media change */ 
728 idedisk revalidate, /* revalidate */ 
129 idedisk pre reset, /* pre reset */ 
130 idedisk capacity, /* capacity */ 

731 idedisk special, /* special */ 

732 idedisk_proc /* proc */ 

133° ie 


可 见 ， 其 函数 指针 do request 指向 do_rw_disk( )， 这 个 函数 的 代码 也 在 ide_disk.c 中 。 这 又 是 一 个 
很 重要 的 函数 ， 由 二 代码 比较 长 ， 我 们 分 段 阅读 。 


[run_task_queue( ) ».. run task queue( ) > generic unplug device( ) > __ generic unplug device( ) 
> do. ide request( ) > ide do, request( ) > start, request( ) > do. rw. disk( )] 


377 /® 
378 * do rw disk( ) issues READ and WRITE commands to a disk, 
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381 
382 
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* using LBA if supported, or CHS otherwise, to address sectors. 
* It also takes care of issuing special DRIVE_CMDs. 
*/ 
static ide startstop t do rw disk (ide drive t *drive, 
struct request *ra, unsigned long block) 
{ 
if (IDE CONTROL REG) 
OUT BYTE (drive->ctl, IDE CONTROL. REG) ; 
OUT BYTE(rq-?nr sectors, IDE NSECTOR REO); 
#ifdef CONFIG BLK DEV PDC4030 
if (drive-^select.b.lba || IS PDC4030 DRIVE) { 
Helse /* !CONFIG BLK DEV PDC4030 */ 
if (drive-^select.b.lba) { 
&endif /* CONFIG BLK DEV PDC4030 */ 
&ifdef DEBUG 
printk(“%s: %sing: LBAsect=%ld, sectors=%ld, buffer=0x%081x\n’, 
drive->name, (rq~>cmd==READ) ?’ read”: writ”, 
block, rq->nr_sectors, (unsigned long) rq->buffer) : 
#endif 
OUT_BYTE (block, IDE SECTOR REO); 
OUT_BYTE (block>>=8, IDE LCYL REG); 
OUT_BYTE (block>>=8, IDE HCYL REG) ; 
OUT_BYTE (((block>>8) &0x0f) | drive->select. all, IDE SELECT REG) ; 
} else { 
unsigned int sect, head, cyl, track; 
track = block / drive->sect; 
sect = block % drive->sect + |: 
OUT BYTE (sect, IDE SECTOR REG) ; 
head = track % drive-^head; 
cyl = track / drive->head: 
OUT_BYTE (cyl, IDE LCYL REO); 
OUT BYTE(cy1»58, IDE HCYL REG); 
OUT BYTE (head|drive->select. all, IDE SELECT REO); 
#ifdef DEBUG 
printk("%s: %sing: CHS=%d/%d/%d, sectors=%ld, buffer=0x%081x\n’, 
drive->name, (rq-^cmd--READ)?"read":"writ^, cyl, 
head, sect, rq->nr_sectors, (unsigned long) rq->buffer): 
Hendif 
] 
#ifdef CONTIG BLK DEV PDC4030 
if (IS PDC4030 DRIVE) { 
extern ide startstop t do pdc4030 io(ide drive t *, struct request *); 
return do pdc4030 io (drive, rq): 
} 
#endif /* CONFIG BLK DEV PDC4030 */ 


这 里 的 IDE CONTROL REG Œ X W ide.h: 
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126 #define IDE CONTROL_REG (HWIF (drive)-^io ports[IDE CONTROL OFFSET ]) 





其 他 一 些 寄存 器 VO 地 址 的 定义 也 与 此 相似 。 与 前 面 ide_do_request( ) 代 码 中 1336 行 调 用 的 
SELECT INTERRUPT 作 一 对 比 ， 就 可 以 看 出 这 一 次 的 bit] 为 0， 表示 解除 对 IDE 接口 中 断 请 求 的 有 
藏 。 然 后 把 需要 读 / 写 的 扇 区 数量 写 入 磁盘 的 “ 扇 区 数量 寄存 器 ”(386 T. ETERRAK, MNRE 
用 的 是 LBA Hist (Jil 390 行 ) 还 是 CHS 模式 ( 见 401 行 ) 了。 如 果 使 用 的 是 CHS 模式 就 旧作 一 些 换 
€t (403—404, 406~407 行 )。 我 们 继续 往 下 看 : 





[run_task_queue( ) > __run_task_queue( ) > generic unplug device( ) > .. . generic unplug device( ) 
> do ide request( ) > ide do request( ) > start request( ) > do rw disk( )] l 


423 if (rq->emd == READ) { 

424 #ifdef CONFIG BLK DEV IDEDMA 

425 if (drive->using dma && ! (HWIF(drive)—>dmaproc (ide dma read, drive))) 
426 return ide started; 

421 #endif /* CONFIG BLK DEV IDEDMA */ 

428 ide set handler(drive, &read intr, WAIT CMD, NULL); 

429 QUT BYTE(drive-»mult count ? WIN MULTREAD : WIN READ, IDE COMMAND REG) ; 
430 return ide started; 

431 ) 


大 家 知道 ， 对 外 部 设备 的 VO 技术 有 两 种 。 一 种 是 出 CPU 驱动 的 “程序 控制 WO”， 其 特点 是 ， 当 
外 设 已 经 准备 好 进行 VO 时 ， 就 由 CPU 执行 一 段 底层 VO 驱动 称 序 ,在 外 设 与 内 存 组 冲 区 之 间 “ 搬 运 ” 
数据 ， 而 外 设 与 内 存 并 不 直接 接触 。 另 一 种 是 由 外 设 “ 直 接 访问 内 存 ”， 即 DMA，CPU 把 缓冲 区 的 地 
址 与 需要 读 / 写 的 长 度 告诉 外 设 ， 外 设 在 准备 好 以 后 就 通过 有 关 硬 件 向 CPU 发 出 一 个 DMA isk, Book 
CPU 暂停 使 用 内 存 ， 获 得 同意 之 后 就 直接 在 内 存 与 外 设 之 间 传 输 数 据 ， 完 成 以 后 再 把 对 内 存 的 访问 权 
归还 给 CPU。 但 是 ，CPU 对 曾经 发 生 过 的 暂停 使 用 内 存 以 及 谁 在 暂停 期 间 访问 了 内 存 这 些 事情 开 无 知 
觉 ， 央 为 于 是 由 硬件 实现 而 不 是 在 程序 控制 下 实现 的 。 所 以 ， 需 要 有 .种 手段 ， 让 CPU 知道 由 某 种 设 
备 驱动 的 一 次 DMA 已经 完成 。 那 么 ， 在 程序 控制 VO 中 怎样 让 CPU 知道 外 设 已 经 准备 好 ， 在 DMA 
中 怎样 让 CPU 知道 DMA 已 经 完成 呢 ? 这 又 有 两 种 方法 ， -种 是 由 CPU fri oD, 5o Rath 
备 向 CPU 发 出 中 断 请 求 。 这 样 ， 一 共 就 有 4 种 可 能 的 组 合 。 由 CPU 查询 的 方法 显然 是 效率 很 低 的 ， 
所 以 只 在 很 简单 、 归 求 很 低 的 系统 中 才 使 用 ， 像 Linux 这 样 的 系统 当然 要 采用 中 断 方 法 《 见 第 3 章 )。 
于 是 就 只 剩 下 中 断 与 DMA 和 中 断 与 程序 控制 WO 两 种 了 。 是 否 采用 DMA E “个 系统 配置 的 选项 。 如 
果 选 择 了 采用 DMA， 这 申 的 条 件 编 详 控制 CONFIG_BLK_DEV_IDEDMA MAM, AMA, 
而 在 编译 时 跳 过 这 里 的 425 和 426 两 行 。 我 们 将 在 以 后 专门 讨论 DMA， 在 这 里 假定 采用 程序 控制 UO 
的 方式 。 

对 于 读 操作 ，CPU 需要 在 磁盘 已 经 准备 好 供 读 出 时 得 到 通知 ， 上 再 执行 从 磁 柱 读 出 ， 所 以 要 镍 先 设 
置 好 一 个 中 断 服 务 程序 read_intr( )， 这 是 由 ide set handler( ) 完 成 的 ， 它 的 代码 在 ide.c HP: 





[run task queue( ) > __run_task_queue( ) > generic_unplug_device( ) > __generic_unplug_device( ) 
> do ide request( ) > ide_do_request( ) > start, request( ) > do_rw_disk( ) > ide set handler( )] 


525 /* 
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526 This should get invoked any time we exit the driver to 

527 * wait for an interrupt response from a drive.  handler( ) points 
528 * at the appropriate code to handle the next interrupt, and a 

529 * timer is started to prevent us from waiting forever in case 

530 * something goes wrong (see the ide timer expiry( ) handler later on). 
531 */ 

532 void ide set handler (ide drive t *drive, ide handler t *handler, 
533 unsigned int timeout, ide expiry t *expiry) 

534 {f 

535 unsigned long flags; 

536 ide hwgroup t *hwgroup = HWGROUP (drive) : 

537 

538 spin lock irqsave(&io request lock, flags); 

539 if (hwgroup-^handler != NULL) | 

540 printk(^*s: ide set handler: handler not null; old=%p, new=%p\n”, 
541 drive->name，hwgroup->handler，handler) ; 

542 } 

543 hwgroup-^handler - handler; 

544 hwgroup-2expiry = expiry; 

545 hwgroup-^timer.expires = jiffies + timeout; 

546 add_timer (&hwgroup->timer) ; 

547 spin unlock irqrestore(&io request lock, flags); 

548  ] 


这 里 的 第 “和 第 .个 参数 是 不 言 白 明 的 ;第 :个 参数 是 为 本 次 操作 所 设置 的 时 间 限 制 ， 第 四 个 参 
数 是 个 函数 指针 ， 这 是 当 超 过 时 间 限 制 时 要 调用 的 函数 ， 指 针 为 NULL 表示 采用 标准 的 超时 处 理 。 这 
些 参数 都 记录 在 代表 着 具体 硬盘 所 局 磁盘 组 的 ide_hweroup_t 数据 结构 中 。 从 这 个 函数 也 可 以 看 出 , 一 
个 磁盘 组 在 同一 时 间 里 只 能 有 一 个 磁盘 处 于 操作 状态 , 因为 在 ide_hwgroup_t 数据 结构 中 只 有 -个 函数 
和 针 指 向 中 崭 服 务 程 序 ， 也 只 有 一 个 用 十 操作 超时 的 定时 占 。 

为 中 断 作 好 准备 以 后 , CPU ZURA RER, 可 以 通过 命令 寄存 器 下 达 启 动 读 操作 的 命令 了 ( 见 
429 行 )。 由 于 具体 磁盘 的 内 部 缓冲 区 大 小 各 不 相同 , 有 的 硬盘 每 读 出 一 个 肩 区 就 向 CPU 发 出 一 个 中 断 
请 求 ， 有 些 则 可 以 在 积累 起 多 个 硕 区 的 内 容 《 如 果 震 要 的 话 ) 以 后 才 向 CPU 发 出 一 个 中 断 请 求 。 对 后 
一 种 硬盘 其 ide drive t 结构 中 的 mult count 宁 段 为 非 0， 而 便 枕 除 接 党 读 单个 扇 区 的 命令 WIN. READ 
外 也 可 接受 读 多 个 扇 区 的 命令 WIN_MULTREAD。 那 么 ,所 谓 “ 多 个 扇 区 ” 到 底 是 几 个 呢 ? 这 就 取决 
d BAK OR CX, 386 行 ) 和 磁盘 内 部 缓冲 区 的 大 小。 这 个 缓冲 区 大 小 在 IDE 设备 初始 化 时 设 
置 在 mult count 字段 中 。 读 命令 一 经 发 出 ， 对 读 操 作 的 启动 就 完成 了 (430 行 )， 所 以 返回 个 常数 
jide_started。 从 指定 的 扇 区 将 数据 读 入 其 内 部 缓冲 器 后 ， 磁 盘 就 会 向 CPU 发 出 中 断 请 求 ， 以 后 就 是 中 
BT ARS FE read. intr ) 的 事 了 。 

再 看 写 操 作 的 启动 : 


[run_task_queue( ) > . run task queue( ) > generic_unplug_device( ) > __ generic_unplug_device( ) 
> do_ide_request( ) > ide do request( ) > start request( ) > do rw disk( )} 


432 if (rq->cmd == WRITE) { 
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ide_startstop_t startstop; 
#ifdef CONFIG BLK DEV IDEDMA 
if (drive~>using dma && ! (HWIF (drive)->dmaproc(ide_dma_write, drive))) 
return ide_started; 
Hendif /* CONFIG BLK DEV IDEDMA */ 
OUT BYTE(drive-^mult count ? WIN MULTWRITE : WIN WRITE, IDE COMMAND REO); 
if (ide wait stat(&startstop, drive, DATA READY, 
drive—>bad_wstat, WAIT DRQ)) { 
printk(KERN ERR “%s: no DRQ after issuing %s\n , drive->name, 
drive-»mult count ? "MULTWRITE" : “WRITE”) ; 
return startstop; 
} 
if (!drive->unmask) 
| cli( 2); /x local CPU only */ 
if (drive->mult count) | 
ide hwgroup t *hwgroup = HWGROUP (drive); 
/*® 
* Ugh.. this part. looks ugly because we MUST set up 
* the interrupt handler before outputting the first block 
* of data to be written. If we hit an error (corrupted buffer list) 
* in ide multwrite( ), then we need to remove the handler/timer 
* before returning. Fortunately, this NEVER happens (right?). 
* 
* 


Except when you get an error it seems... 
*/ 
hwgroup->wrdq = *rq; /* scratchpad */ 
ide set handler (drive, &multwrite intr, WAIT CMD, NULL); 
if (ide multwrite(drive, drive->mult_count)) { 
unsigned long flags; 
hwgroup-»handler - NULL; 
del timer(&hwgroup >timer) ; 
spin unlock irqrestore(&io request lock, flags); 
return ide stopped; 
} 
} else { 
ide set handler (drive, &write intr, WAIT CMD, NULL); 
idedisk output data(drive, rq->buffer, SECTOR WORDS); 
} 
return ide started; 
j 
printk(KERN ERR “%s: bad command: %d\n”, drive->name, rq-^cmd); 
ide end request(0, HWGROUP (drive)) ; 
return ide stopped; 


j 


同样 ， 我 们 在 这 里 先 不 关心 DMA。 对 写 操 作 也 卓 先 发 出 启动 命令 。 同 样 ， 根 据 上 其 体 磁盘 的 特性 ， 
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有 针对 单个 扇 区 的 WIN. WRITE 40% 743 KK) WIN_NULTWRITE 两 种 命令 。 发 出 命令 以 后 ， 就 要 通 
过 ide_wait_stat( ) 等 待 和 读 皮 磁盘 的 状态 寄存 器 。 这 个 等 待 只 不 过 是 大 约 400 微 党 秒 的 时 间 ， 所 以 不 值 
得 采用 中 断 方 式 〈 磁 盘 也 并 不 为 此 提供 中 断 请 求 的 功能 )。 另 “方面 ， 由 于 对 VO 的 启动 是 在 bh 函数 
中 进行 的 ， 所 以 也 不 能 进入 睡眠 。 磁 盘 在 接收 到 写 操作 命令 并 准备 好 接受 待 写 入 的 数据 时 ， 就 将 其 状 
态 寄存 器 中 的 DRQ 位 设 成 1， 表 示 可 以 传输 数据 了 。CPU 一 方 检测 到 这 个 信息 以 后 ， 就 可 以 开始 答 出 
数据 了 。 可 想 而 知 ， 单 扇 区 的 写 出 与 多 扇 区 的 写 出 会 略 有 人 不同 ， 我 们 把 多 扇 区 的 写 出 (447 一 466 7B 
给 谈 者 。 这 里 只 看 与 单 扇 区 有 关 的 代码 。 

首先 还 是 设置 中 断 服务 程序 ， 不 过 这 一 次 设置 的 是 write_intr( )。 然 后 就 是 数据 的 输出 了 ， 函 数 
idedisk output, data( ) 的 代码 也 在 ide disk.c F: 





[run task queue( ) ». run task queue( ) > generic unplug device()» . generic unplug device( ) 
> do ide request( ) > ide do. request( ) > start request( ) > do rw. disk( ) > idedisk output data( )] 


79 static inline void idedisk output data (ide drive t *drive, void *buffer, unsigned 
int wcount) 

80 { 

81 if (drive bswap) | 

82 idedisk bswap data(buffer, wcount); 

83 ide output data(drive, buffer, weount) ; 

84 idedisk bswap data(buffer, wcount); 

85 } else 

86 ide_output_data(drive, buffer, wcount); 

87 } 


先 看 参数 ， 第 PSR RAMAN ide drive t 结构 ; BIABA A, BREWDK 
结构 中 的 指针 buffer Battal LR ASP BRK HK: 98 — 7 E GE SEG IKE, 
ixH EA SECTOR WORDS, HJ] AMK A 16 位 字 计算 )。 以 前 讲 过 ， 同 一 操作 请 求 所 涉 
及 的 扇 区 一 定 是 连续 的 ， 但 是 他 们 的 缓冲 区 却 不 定 连续 ， 不 过 缓冲 区 的 长 度 一 定 是 扇 区 大 小 的 整数 
倍 。 例 如 ， 将 两 个 操作 请 求 合并 成 一 个 时 ， 它 们 的 扇 区 : 定 是 连续 的 ， 但 是 缓冲 区 却 不 连续 。 

这 个 函数 所 做 的 还 不 是 真正 的 数据 输出 , ASAE FH ide_output_data( ) 完 成 的 。 这 里 所 做 的 是 可 能 需要 
的 对 宁 节 次 序 的 转换 。CPU 有 big ending 和 little_enging 之 分 ，16 位 和 32 位 的 数据 在 这 两 种 制式 中 字 
节 次 序 不 同 。 可 是 ， 磁 挝 上 的 数据 制式 不 应 该 跟着 CPU 跑 ， 和 而 应 该 固定 使 用 一 种 ， 所 以 有 可 能 需要 在 
读 / 写 磁盘 时 加 以 转换 。 

函数 ide_output_data( ) 的 代码 在 ide.c "P: 


[run task queue()» __run_task_queue( ) > generic unplug device()» . generic unplug device( ) 
> do ide request( ) > ide do request( ) > start request( ) > do rw disk( ) > idedisk output, data( ) 
» ide output, data( )] 


405 /* 
406 * This is used for most PIO data transfers *to* the IDE interface 
407 */ 


408 void ide output data (ide drive t *drive, void *buffer, unsigned int wcount) 
400 | 
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410 byte io 32bit = drive-^io 32bit; 

411 

412 if (io 32bit) | 

413 #if SUPPORT VLB SYNC 

414 if (io 32bit & 2) { 

415 unsigned long flags; 

416 save flags(flags); /* local CPU only */ 
417 clit ); /* local CPU only */ 

418 do vlb sync(IDE NSECTOR, REG) ; 

419 outs] (IDE DATA REG, buffer, wcount); 

420 | restore flags(flags); /* local CPU only */ 
421 } else 

422 Hondif /* SUPPORT VLB SYNC x*/ 

423 outs] (IDE DATA REG, buffer, wcount); 

424 | else 1 

425 #if SUPPORT SLOW DATA PORTS 

426 if (drive->slow) | 

427 unsigned short *ptr = (unsigned short *) buffer; 
428 while (wcount--) 1 

429 outw p(*kptr++, IDE DATA REO): 

430 outw_p(kptr++, IDE DATA REG); 

431 } 

432 } else 

433 Hendif /* SUPPORT SLOW DATA PORTS */ 

434 outsw(TDE DATA REG, buffer, weount<<1) ; 

435 } 

436 } 


人 部 分 IDE 磁盘 的 数据 寄存 器 都 想 16 位 的 ， 有 些 老式 的 接口 还 不 允许 操作 太 快 向 不 能 使 用 “成 
囊 输 出 ”指令 OUTS， 但 也 有 些 新 式 IDE 磁盘 提供 32 位 数据 寄存 器 。 对 大 多 数 晶 前 在 使 用 中 的 IDE W 
盘 而 言 ， 具 体 的 输出 是 通过 成 串 输 出 指令 CL 434 行 ) 完成 的 。 输 出 的 数据 写 入 到 做 僵 的 内 部 绥 冲 区 
中 

输出 完成 以 后 ， 对 写 操作 的 启动 就 完成 了 。 做 盘 企 完成 本 次 与 入 操作 〈 将 数据 写 入 指定 的 而 区 中 ) 
后 会 向 CPU 发 出 中 断 请 求 , 以 后 就 是 中 断 服 务 程序 write_intr( ) 的 事情 了 。 同样 , 这 里 也 返回 ide started 
( 见 上 面 的 471 行 )。 

回 到 前 面 start_request( ) 的 代码 中 《 见 1189 行 )。 对 于 有 特殊 要 求 的 媒 益 ， 其 special all 字段 可 能 
为 非 0， 所 以 会 走 另 :条 路 线 执行 do_special( )。 不 过 ， 这 些 特殊 的 处 理 都 带 有 初始 化 的 性 质 ， 因 侧 执 
行 了 一 裔 以 后 就 把 相应 的 标志 位 清 成 0， 以 后 special.all 就 为 0 rita iE s IER T «PRX do_special( ) 
的 代码 也 在 ide.c 中 ， 我 们 把 它 留 给 有 兴趣 的 读者 自己 阅读 。 

至 此 ， 对 块 设备 VO 的 启动 已 经 完成 ， 以 后 的 事 就 完全 是 寞 步 的 了 。 下 面 我 们 以 读 操 作为 例 米 老 
罕 其 全 过 程 ， 读 者 在 理解 了 该 操作 的 全 过 程 以 后 自然 不 难 把 它 推广 到 与 抬 作 。 

磁盘 从 指定 的 扇 区 中 将 数据 读 入 其 内 部 缓冲 区 以 后 ,就 向 CPU 发 出 中 断 请 求 。 在 IDE 设备 初始 化 
nt, 从 hwif init ) 调 用 的 init_irq( ) 中 , 已 经 通过 request_irq( ) 为 每 个 IDE 磁 得 组 登记 了 总 的 中 断 服务 程 
FÉ ide intr( )， 所 以 CPU 在 响应 中 断 时 就 经 由 内 核 的 中 断 服务 机 制 ( 见 第 3 E) 进入 了 ide_intr( )， 它 
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的 代码 在 ide.c 中 : 


[do IRQ( ) > handle_IRQ_event( ) > ide intr( )] 


1524 /* 
1525 * entry point for all interrupts, caller does | cli( ) for us 
1526 */ 


1527 void ide intr (int irq, void *dev id, struct pt regs *regs) 
1528 { 


1529 unsigned long flags; 

1530 ide hwgroup t *hwgroup = (ide hwgroup t *)dev id; 

1531 ide hwif t *hwif; 

1532 ide drive t *drive; 

1533 ide handler t *handler; 

1534 ide startstop t startstop; 

1535 

1536 spin lock irqsave(&io request lock, flags); 

1531 hwif = hwgroup-^hwif; 

1538 

1539 if (lide ack intr(hwif)) | 

1540 spin unlock irqrestore(&io request lock, flags); 

1541 return; 

1542 } 

1543 

1544 if ((handler = hwgroup->handler) == NULL || hwgroup— poll timeout != 0) { 
1545 /* 

1546 * Not expecting an interrupt from this drive. 

1547 * That means this could be: 

1548 * (1) an interrupt from another PCI device 

1549 * sharing the same PCI INT# as us. 

1550 * or (2) a drive just entered sleep or standby mode, 
1551 * and is interrupting to let us know. 

1552 * or (3) a spurious interrupt of unknown origin. 
1553 * 

1554 * For PCI, we cannot tell the difference, 

1555 * so in that case we just ignore it and hope it goes away. 
1556 */ 

1557 #ifdef CONFIG BLK DEV IDEPCI 

1558 if (IDE PCI DEVID FQ(hwif->pci_devid, IDE PCI DEVID NULL)) 
1559 Hendif /* CONFIG BLK DEV IDEPCI */ 

1560 { 

1561 /* 

1562 * Probably not a shared PCI interrupt, 

1563 * so we can safely try to do something about it: 
1564 */ 

1565 unexpected intr(irq, hwgroup); 

1566 tifdef CONFIG BLK DEV IDEPCI 

1567 } else | 
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1568 /* 

1569 * Whack the status register, just in case we have a leftover pending IRQ. 
1570 */ 

157] (void) TN BYTE(hwif-^io ports[IDE STATUS OFFSET]); 
1572 Hendif /* CONFIG BLK DEV IDEPCI */ 

1573 } 

1574 spin unlock irqrestore(&io request lock, flags); 

1575 return; 

1516 } 

1577 drive = hwgroup~>drive; 

1578 if (!drive) | 

1579  /* 


1580 * This should NEVER happen, and there isn't much we could do about it here. 
1581 X/ 


1582 spin unlock irqrestore(&io request lock, flags); 

1583 return; 

1584 } 

1585 if (!drive is ready(drive)) { 

1586 /* 

1587 * This happens regularly when we share a PCI IRQ with another device. 

1588 * Unfortunately, it can also happen with some buggy drives that trigger 

1589 * the TRQ before their status register is up to date. Hopefully we have 

1590 * enough advance overhead that the latter isn't a problem. 

1591 */ 

1592 spin unlock irqrestore(&io request lock, flags); 

1593 return; 

1594 i 

1595 if (!hwgroup->busy) { 

1596 hwgroup->busy = 1; /* paranoia */ 

1597 printk(^*s: ide intr: hwgroup->busy was 0 ??\n", drive->name) ; 

1598 } 

[599 hwgroup >handler = NULL; 

1600 del timer(&hwgroup-^timer); 

1601 spin unlock(&io request lock); 

1602 

1603 if (drive—>unmask) 

1604 ide sti();  /* local CPU only */ 

1605 startstop = handler (drive) ; /* service this interrupt, may set 
handler for next interrupt */ 

1606 spin lock irq(&io request lock); 

1607 

1608 /* 

1609 * Note that handler( ) may have set things up for another 

1610 * interrupt to occur soon, but it cannot happen until 

1611 * we exit from this routine, because it will be the 

1612 * samc irg as is currently being serviced here, and Linux 

1613 * won t allow another of the same (on any CPU) until we return. 

1614 */ 
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1615 set recovery timer (HWIF(drive)) ; 

1616 drive->service_time = jiffies - drive-^service start: 

1617 if (startstop == ide stopped) { 

1618 if (hwgroup-^handler == NULL) { /* paranoia */ 

1619 hwgroup->busy = 0; 

1620 ide do request(hwgroup, hwif->irg) ; 

1621 ) else { 

1622 printk(^Ws: ide intr: huh? expected NULL handler on exit\n’, 
drive->name) ; 

1623 j 

1624 j 

1625 spin unlock irqrestore(&io request lock, flags); 

1626  ] 


I] P REG re Lic HP IS IR AS PESE, BY DUT DU Z LESE void 指针 ， 作 为 将 来 调用 该 服务 
程序 时 的 参数 〈 见 第 3 章 ) 。 这 就 是 这 里 的 指针 dev_id， 它 实际 上 是 指向 磁盘 组 的 ide. hwgroup. t 数据 
结构 ， 从 这 个 数据 结构 中 可 以 找到 该 磁盘 组 的 当前 IDE 接口 ( 见 1537 行 ) 。 对 于 i386 结构 的 CPU, 
这 里 的 ide_ack_intr( ) 是 个 空 函 数 ， 见 ide.h: 


109 define ide ack intr (hwif) (1) 


这 里 的 函数 指针 hwgroup->handler 不 可 能 为 0， 所 以 我 们 跳 过 第 1544 行 条 件 语句 的 执行 部 分 。 同 时 ， 
1578 行 的 指针 hwgroup->drive 也 不 会 是 0， 因 为 磁盘 之 所 以 会 发 出 中 断 请 求 是 因为 曾经 向 它 发 出 了 命 
F. 但是， 即使 对 于 在 正常 情况 下 不 会 发 生 的 事 也 要 作 好 准备 ， 以 防 万 -。 同 样 的 道理 也 适用 于 1585 
行 对 磁盘 状态 的 测试 。 

函数 指针 hwgroup->handler 的 内 容 已 经 转移 到 另 一 个 指针 handler 中 ，1599 行将 其 清 0。 这 说 明 在 
人 磁盘 组 层次 上 中断 服务 程序 的 设置 是 一 次 性 的 ， 以 后 的 中 断 服务 程 序 是 什么 要 视 本 次 中 断 服务 中 的 处 
理 而 定 。 向 磁盘 发 出 命令 启动 其 写 操作 时 ， 曾 经 为 磁盘 的 操作 设置 下 一 个 定时 器 ， 以 备 在 操作 超过 时 
间 限 制 时 采取 必要 的 措施 。 现 在 中 断 既 已 发 生 (并且 已 经 检查 了 状态 寄存 器 ) ， 这 个 定时 器 显然 已 经 
不 需要 了 ， 所 以 通过 del_timer( ) 将 其 撤销 ‘1600 477) . 

接着 距 是 调用 预先 设置 好 的 中 断 服务 程序 了 (1605 行 ) ， 对 于 读 盘 操作 这 是 read_intr( )， 其 代码 
在 ide_disk.c 中 : 


[do_IRQ( ) > handle IRQ event( ) > ide intr( ) > read_intr( )] 


134 /* 

135 * read intr( ) is the handler for disk read/multread interrupts 
136 */ 

137 stalic ide startstop t read intr (ide drive t *drive) 

138 { 

139 byte stat: 

140 int i; 

141 unsigned int msect, nsect; 
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142 struct request *rq; 

143 

144 /* new way for dealing with premature shared PCI interrupts */ 
145 if (10K STAT(stat-GET STAT( ), DATA READY, BAD R STAT) | 
146 if (stat & (ERR STAT|DRQ STAT) ( 

147 return ide error(drive, “read intr^, stat); 

148 } 

149 /* no data yet, so wait for another interrupt */ 

150 ide set handler(drive, &read intr, WAIT CMD, NULL); 
151 return ide started; 

152 } 

153 msect = drive->mult count; 

154 

155 read next: 

156 rq = HWGROUP (drive) ->rq: 

157 if (msect) | 

158 if ((nsect = rq->current nr sectors) > msect) 

159 nsect = msect; 

160 msect ~-= nsect; 

161 } else 

162 nsect = 1; 

163 idedisk input data(drive, rq->buffer, nsect * SECTOR WORDS); 
164 #ifdef DEBUG 

165 printk(/$s: read: sectors (%ld-%ld), buffer=0x%081x, remaining=%ld\n", 
166 drive->name, rq->sector, rq-?sector*nsect-l, 

167 (unsigned long) rq->buffert+(nsect<<9), rq-?nr sectors-nsect); 
168 Bendif 

169 rq-?sector += nsect; 

170 rq->buffer += nsect<<9; 

171 rq->errors = 0; 

172 i = (rq->nr_sectors -= nsect); 

173 if (((ong) (rq->current_nr_ sectors -= nsect)) <= 0) 

174 ide end request (1, HWGROUP (drive) ); 

175 if (i > 0) { 

176 if (msect) 

177 goto read next; 

178 ide set handler (drive, &read intr, WAIT CMD, NULL); 
179 return ide started; 

180 ) 

181 return ide stopped; 

182  ] 


这 里 的 OK_STAT( ) 是 个 宏 操 作 , 它 将 由 GET_STAT() 从 状态 寄存 器 读 回 的 数值 与 DATA_READY 
#l BAD_R_STAT tht, 看 是 否 状态 字 节 中 的 DATA_READY 位 为 1 而 BAD_R_STAT 位 为 0。 如果 状 
态 字 节 表明 磁盘 尚未 准备 好 ， 但 是 也 没有 出 错 〈 见 150 行 )， 就 再 把 中 断 服 务 程序 设置 成 read_intr( )， 
到 下 次 中 断 时 再 来 处 理 。 
如 果 磁 盘 确 已 准备 好 了 ， 那 就 从 相应 的 ide hwgroup t 结构 中 找到 当前 的 操作 请 求 。 以 前 讲 过 : 每 
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^* IDE 设备 都 有 自己 的 操作 请 求 队 刻 ,但 是 整个 IDE 接口 组 只 能 有 “个 “当前 操作 请 求 ”ide_hwgroup_t 
结构 中 的 指针 rq 就 指向 这 个 请 求 的 request 数据 结构 。 所 以 ， 这 里 先 此 通过 HWGROUP( ) 找 到 设备 所 
属 的 接口 组 ， 再 取得 其 当前 操作 请 求 。 此 外 ， 还 要 根据 反映 磁 和 由 内 部 缓冲 区 人 小 的 drive->mult_count 
和 本 次 操作 中 要 求 从 磁盘 读 入 当前 缓冲 区 的 局 区 个 数 rq->current_nr_sectors， 确 定 一 次 从 磁盘 读 入 的 扇 
区 个 数 为 nsect。 

PRIX idedisk_input_data( ) 的 代码 在 ide_disk.c 中 。 可 以 想像 ， 它 与 朋 面 的 idedisk_output_data( ) 相 似 
而 只 是 传输 数据 的 方向 相反 ， 所 以 我 们 不 看 具体 的 代 公 了 。 

从 磁盘 读 入 以 后 ， 要 对 当前 操作 请 求 的 指针 buffer 和 计数 器 sector 、nr_sectors 、 以 及 
current, nr. sectors 作 相 应 的 调整 (多 169—170 以 及 172—173 行 )， 并 计算 出 当前 操作 尚未 完成 的 扇 区 数 
(172 行 )。 这 里 sector 为 已 经 读 入 的 累计 扇 区 数 (对 本 次 操作 请 求 )，nr_sectors 为 本 次 操作 请 求 要 读 入 的 
局 区 总 数 ; current. nr. sectors 为 本 次 中 断 服 务 中 要 从 磁盘 读 入 到 当前 内 存 缓冲 区 的 扇 区 数 ; 而 msect 则 
为 本 次 操作 中 要 求 磁 盘 读 入 ， 但 尚未 读 入 到 内 存 缓冲 区 的 扁 区 数 。 即 使 磁 捞 支持 多 肩 区 操作 ， 一 个 操 
作 请 求 也 可 能 要 通过 好 几 次 中 断 服 务 才能 完成 。 此 外 ， 一 个 抬 作 请 求 也 可 能 涉及 多 个 缓冲 区 ， 所 以 在 
request 数据 结构 中 有 个 缓冲 区 队列 ; 对 分 布 在 不 同 缓冲 区 中 的 连续 扇 区 可 以 合并 成 同一 次 多 扇 区 操作 ， 
但 是 却 要 分 次 从 磁盘 读 入 ， 特 别 起 考 虚 到 采用 DMA 时 更 是 如 此 ， 因 为 一 般 的 DMA 控制 器 (不 是 所 谓 
Intelegent DMA) 没 有 自动 切换 缓冲 区 的 功能 。 

考虑 已 经 读 进来 的 这 部 分 数据 与 整体 的 关系 ， 人 存在 着 三 种 可 能 的 情况 : 

(这些 数据 只 是 一 部 分 ， 并 且 磁 盘 的 内 部 缓冲 区 中 还 有 数据 尚未 读 出 ， 之 所 以 不 能 把 内 部 缓冲 

区 中 的 数据 全 部 读 出 是 因为 已 经 到 了 一 个 内 存 缓冲 段 的 末尾 。 在 继续 从 磁 规 的 内 部 缓冲 区 读 
出 之 前 ， 先 要 调整 缓冲 区 指针 使 其 指向 让 一 个 内 存 缓冲 lx ， 这 是 由 ide end request( ) 完 成 的 
CL 173—174 行 和 177 行 ) 。 
Q) 由 于 伐 盘 内 部 缓冲 区 大 小 的 限制 ， 磁 盘 内 部 绥 冲 区 中 的 数据 已 经 伞 部 读 出 ， 但 是 当前 操作 尚 
林 完 成 ， 和 磁盘 会 继续 从 有 关 扇 区 将 数据 谈 入 内 部 缓冲 区 后 再 次 发 出 中 断 请 求 ， 所 以 要 为 下 - 
次 中 断 作 好 准备 CL 178 一 179 行 )。 同 时 ， 如 果 恰 巧 己 经 到 了 当前 缓冲 区 的 末尾 ， 就 也 费 
通过 ide end request( ) 启 用 新 的 缓冲 区 ( 见 173 一 174 行 》。 

(3) ”这 些 数据 就 是 当前 操作 请 求 所 要 求 的 全 部 ， 或 者 是 它 的 最 后 部分， 所 以 整个 操作 请 求 已 经 

完成 〈 见 181 行 ) 。 | 

显然 ， 当 整个 操作 请 求 完 成 时 ， 内 存 中 的 绥 冲 区 指针 也 必定 恰好 人 A 到达 一 -个 缓冲 区 的 术 尾 ， 所 以 也 
会 调用 ide end request( XIL 173 和 174 行 )。 

可 见 ， 内 要 到 达 了 一 个 绥 冲 IX 的 末尾 ,就 会 调 川 ide_end_request( )， 共 目的 可 能 只 是 司 用 同 操作 
请 求 中 的 下 一 个 绥 冲 区 ， 也 可 能 对 整个 操作 请 求 的 善后 处 理 。 它 的 代码 在 ide.c 中 : 


[do_IRQ( ) > handie_IRQ_event( ) > ide_intr( ) > read_intr( ) > ide end request( )] 


505 /* 
506 * This is our end_request replacement function. 
507 */ 


508 void ide end request (byte uptodate, ide hwgroup t *hwgroup) 
500 {f 
510 struct request *rq; 
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513 
514 
515 
516 
517 
518 
519 
520 
521 
522 
523 


} 
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unsigned long flags; 


spin lock irqsave(&io request lock, flags); 
rq = hwgroup-?rq; 


if (lend that request first(rq, uptodate, hwgroup->drive—name)) 1 
add blkdev randomness (MAJOR (rq->rq_dev)) ; 
blkdev dequeue request (rq) ; 
hwgroup-?rq = NULL; 
end that request last (rq) ; 


} 


spin unlock irgrestore(&io request lock, flags); 


首先 调用 end that request first( )， 其 代码 在 IW rw blk.c "P: 


[do IRQ( ) > handle IRQ event( ) > ide intr( ) > read intr( ) > ide end request( ) 
»end that request first( )] 


1099 
1100 
1101 
1102 
1103 
1104 
1105 
1106 
1107 
1108 
1109 
1110 
111! 
1112 
1113 
1114 
1115 
1116 
1117 
1118 
1119 
1120 
1121 
1122 
1123 
1124 
1125 
1126 
1127 


/* 


* First step of what used to be end request 


* 


* 0 means continue with end that request last, - 
* 1 means we are done 


*/ 


int end that request first (struct request *req, int uptodate, char *name) 


{ 


struct buffer head * bh; 
int nsect; 


req-?errors = 0; 
if (tuptodate) 
printk( end request: I/0 error, dev %s (Ms), sector %luNn ， 
kdevname(req-?rq dev), name, req-^sector); 


if ((bh = req->bh) != NULL) | 

nsect = bh-^b size >> 9; 

req->bh = bh-?b reqnext; 

bh-»b regnext = NULL; 

bh-^»b end io(bh, uptodato); 

if ((bh = req->bh) !- NULL) i 
req-»hard sector += nsect; 
req-^hard nr sectors -= nsect; 
req->sector = req-^hard sector; 
req-nr sectors = req-^5hard nr sectors; 


req-?current nr sectors - bh-?b size >> 9; 
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1128 if (req->nr_sectors € reg->current nr sectors) | 
1129 req-2nr sectors = reqg-2current nr sectors; 

1130 printk( end request: buffer-list destroyed\n’) ; 
1131 ] 

1132 req->buffer = bh->b data; 

1133 return l; 

1134 } 

1135 } 

1136 return 0; 

137 } 


不 管 整个 操作 请 求 是 省 已 经 完成 ， 对 其 中 一 个 缓冲 区 的 读 入 总 归 是 完成 了 ， 否 则 就 到 不 了 这 个 函 
数 中 ， 所 以 把 当前 操作 请 求 的 缓冲 区 指针 移 向 队列 中 的 下 一 个 缓冲 区 (1118 行 )， 将 原来 的 当前 缓冲 区 
从 队列 中 解脱 出 来 。 同 时 ， 上 既然 对 一 个 缓冲 区 的 操作 已 经 完成 ， 就 要 道 过 其 函数 指针 b end io 调用 该 
缓冲 区 的 善后 程序 。 对 于 写 操 作 , 这 个 函数 指针 是 在 __block_prepare_write( ) 以 及 类 似 的 函数 中 设置 的 ; 
对 于 读 操作 则 在 getblk( ) 一 类 的 函数 中 通过 init_buffer( ) 设 置 ， 但 是 这 个 函数 指针 一 般 都 指向 
end buffer io sync(), ' BA ATE fs/buffer.c 中 : 


[do IRQ() > handle IRQ event( ) > ide intr( ) > read. intr( ) > ide end request( ) 
> end that request first( ) > end buffer io sync( )] 


978 /* 
979 * Default IO end handler, used by ^11 rw block( )”. 
980 */ 


981 static void end buffer io sync(struct buffer head *bh, int uptodate) 
982 | 


983 mark buffer uptodate(bh, uptodate); 
984 unlock buffer (bh); 
985  ] 


第 一 件 事 是 将 已 经 读 / 写 完毕 的 缓冲 区 的 BH, Uptodate REMER 1， 表 示 该 缓冲 区 的 内 容 已 是 最 
新 版 本 了 。 第 二 件 事 是 unlock_buffer( )， 见 locks.h: 


[do IRQ( ) > handle_IRQ_event( ) > ide_intr( ) > read intr( ) > ide end, request( ) 
> end that request, first( ) > end. buffer io sync( ) > unlock, buffer( )] 


29 extern inline void unlock buffer (struct buffer head *bh) 


30 { 

31 clear bit (BH Lock, &bh->b state); 
32 smp mb after clear bit( ); 

33 if (waitqueue_active (&bh->b wait)) 
34 wake_up(&bh->b_ wait); 

35 } 


它 一 方面 清除 缓冲 区 的 BH. lock 标志 位 ， 一 方面 唤醒 被 锁 在 外 面 、 正 在 睡眠 等 待 的 进程 。 哪 些 进 
程 会 被 唤 柄 呢 ? 至 少 启动 了 对 该 缓冲 区 的 读 / 写 操作 , 并 调用 了 wait_on_buffer( ) 正 在 等 待 其 完成 的 进程 
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全 被 唤醒 。 例 如 ， 在 block_write( ) 和 block_read( ) 的 代码 中 ， 当 前 进程 在 道 过 1_rw_block( ) 发 出 对 块 设 
备 的 读 / 写 请 求 以 后 都 要 调用 wait_on_buffer( ) 等 待 。 所 以 ，wait_on_buffer( ) 是 启动 操作 的 进程 与 异步 的 
设备 操作 过 程 的 同步 点 。 当 读 / 写 操作 涉及 多 个 缓冲 区 时 ， 对 这 个 消 数 的 调用 通常 放 在 一 个 循环 中 ， 以 
取得 与 所 有 缓冲 区 〈 读 / 写 ) 的 同步 。 

回 到 end. that. request. first ) 的 代码 中 。 如 果 缓 冲 区 队列 中 还 有 下 个 缓冲 区 存在 ， 就 相应 地 设置 
request 数据 结构 中 的 各 项 参数 ， 为 下 一 个 缓冲 区 的 读 / 写 作 好 准备 ， 并 返回 1。 如 果 缓 剖 区 队列 已 经 宁 
了 就 返回 0， 说 明 对 整个 操作 请 求 的 服务 都 已 完成 。 

回 到 ide_end_request( HJARA P. UR end that request. first ) 返 回 的 是 1， 就 表示 同一 操作 请 求 的 
缓冲 区 队列 中 还 有 下 一 个 缓冲 区 ， 并 且 已 经 启用 。 既 然 操作 尚 末 完 成 ， 回 到 readin ) 中 自 会 进一步 加 
以 处 理 。 反 之 ， 如 果 返 回 的 是 0， 那 就 说 明 整 个 操作 请 求 都 已 完成 了 。 这 叶 候 需 要 执行 - 些 对 整个 操作 
请 求 的 善后 处 理 。 处 理 些 什么 呢 ? -是 通过 blkdev dequeue request( ) 将 代表 这 个 操作 请 求 的 request Zi 
构 从 操作 请 求 队列 中 摘除 ， 并 将 整个 IDE 接口 组 的 当前 请 求 指针 设置 成 NULL。 二 是 调用 
end_that_request_last( )， 等 一 下 我 们 要 看 它 的 源 代码 。 除 此 之 外 ， 还 搭配 了 一 点 “ 私 货 ”， 束 是 对 
add blkdev. randomness( ) 的 调用 。 这 是 干什么 用 的 呢 ? 系统 中 常常 需 些 生成 一 些 随机 数 ， 为 了 使 这 些 
“随机 数 ” 更 加 随机 ， 需 要 在 生成 的 过 程 中 介入 尽 可 能 多 、 尽 可 能 随机 的 因素 ， 称 为 ^N" . fion, 
键盘 输入 的 内 容 就 可 以 用 来 作为 这 些 因素 之 一 ， 因 为 每 次 开机 以 后 键盘 输入 的 内 容 和 次 序 往往 是 不 完 
全 一 样 的 。 而 对 块 设备 的 访问 也 可 以 用 来 作为 个 因素 ， 这 就 是 这 果 调 用 这 个 函数 的 原因 。 

函数 end_that_request_last( ) 的 代码 在 Hl rw, blk.c 中 : 





[do IRQ( ) > handle IRQ event( ) > ide_intr( ) > read_intr( ) > ide_end_request( ) > end_that_request_last( )] 


1139 void end that request last(struct request *req) 


1140 { 

1141 if (req>e) | . 

1142 printk('end that request last called with non-dequeued reqNn ) ; 
1143 BUG ( ) ; 

1144 } 

1145 if (req->sem !- NULL) 

1146 up (req->sem) ; 

1147 

1148 blkdev release request (req) ; 

1149  ) 


显然 ， 这 里 主要 的 操作 是 释放 request 结构 “1148 47) 和 对 内 核 信号 量 req->sem 的 up( )BEYF. FH 
户 进程 可 能 通过 系统 调用 ioctl( ) 直 接 启 动 一 些 对 IDE 1x & HE SRTE, 对 这 些 操作 要 通过 使 用 内 核 佑 与 量 
米 保 证 互 斥 ， 现 在 既然 操作 已 经 完成 就 要 通过 up( ) 退 出 临界 区 .。 

回 到 read_intr( ) 中 (175 行 )， 如 果 还 有 扇 区 尚未 读 入 ， 那 就 是 因为 原来 的 缓冲 区 已 经 满 了 ， 现 在 已 
经 通过 ide_end_request( VÆ end_that_request_first( ) 中 切换 到 了 下 -个 缓冲 区 ， 所 以 可 以 继续 了 。 此 时 
X msect 非 0， 就 表示 梯 盘 的 内 部 缓冲 区 中 还 有 数据 尚未 读 出， 所 以 直接 转 到 标 与 read_next 处 (155 行 ) 
继续 读 出 。 知 则 ， 就 要 调用 ide_set_handler( ) 再 次 设置 中 断 服 务 程序 ， 为 下 次 中 断 作 好 准备 ， 这 个 函 
数 的 代码 已 经 在 前 面 看 到 过 了 。 


. 315. 


Linux 内 核 源 代码 情景 分 析 CRAP 
Oe en oe et ee IEEE AC LE 
当 CPU 从 read_inte( ) 返 回 到 ide. intr( ) 中 时 ( 见 ide_intr( ) 中 的 1606 47), 其 返回 值 有 两 种 可 能 。 一 


种 是 ide_started， 表 示 对 当前 操作 请 求 的 服务 尚未 完成 ,所 以 已 经 为 下 一 次 中 断 请 求 设置 好 了 中 断 服 务 
请 求 。 不 过 ， 只 要 还 没有 从 ide_intr( ) 返 回 ， 就 不 会 因 新 的 中 断 请 求 而 嵌 套 进入 这 个 服务 程序 。 5H 
we ide_stopped， 表 示 当 前 操作 已 经 完成 ， 代 表 当 前 操作 请 求 的 request 数据 结构 也 CAE M BRE SK DS 
中 摘除 。 不 管 返回 的 值 是 什么 ， 有 两 件 事 总 是 要 做 的 。 第 -一 件 事 是 通过 set_recovery_timer( ) 根 据 当前 
的 时 间 设 置 相应 ide_hwif_t 数据 结构 中 的 last time 字段 。 不 过 这 只 有 对 那些 在 两 次 操作 之 间 十 此 有 c 
个 恢复 时 间 的 磁盘 才 必 须 。 第 二 件 事 是 根据 当前 时 间 和 本 次 操作 的 启动 时 间 计 算出 本 次 操作 山 经 耗费 
的 时 间 service_time。 

如 果 从 read_intr( ) 返 回 的 值 是 ide, stopped, IMRE H ide_do_request( )， 看 看 同 -TDE 接口 组 中 
是 从 还 有 哪个 磁盘 的 队列 中 还 有 操作 请 求 。 这 个 函数 的 代位 已 经 在 前 面 读 过 了 。 

IA, AES IDE 接口 组 中 再 没有 任何 活跃 〈《 不 在 睡 眼中 ) 的 磁盘 还 有 操作 请 求 时 为 目 ， 
到 那 时 由 中 断 驱 动 的 设备 读 / 写 过 程 才 会 结束 。 如 果 结 束 时 有 磁 鼻 正在 睡眠 中 ， 币 该 磁盘 的 操作 请 求 队 
列 中 又 有 操作 请 求 ， 那 么 在 睡眠 到 点 时 又 会 启动 这 个 过 程 。 当 然 ， 新 操作 请 求 的 到 来 也 会 再 次 局 动 这 
个 过 程 。 


在 前 面 的 叙述 和 讨论 中 ， 我 们 假定 采用 的 是 程序 控制 VO 而 不 是 DMA， 现 在 我 们 再 来 看 看 对 IDE 
BERE DMA 输入 /输出 是 怎样 实现 的 。 如 前 所 述 ， 是 否 采用 DMA 是 - -个 系统 配置 的 选项 ， 由 条 件 纺 
译 控制 量 CONFIG_BLK_DEV_IDEDMA 决定 实际 采用 的 代码 。 

大 家 知道 ，DMA 是 “直接 访问 内 存 ” 的 缩写 ， 表 示 由 外 部 设备 直接 访问 内 存 。 但 是 ， 在 传统 的 
PC 系统 结构 中 , DMA 操作 要 通过 一 个 “DMA 控制 器 ”( 更 确切 地 说 是 DMA 控制 器 中 的 一 个 “通道 ”) 
才能 进行 。 在 这 种 系统 结构 中 ， 要 对 外 设 进行 DMA 操作 时 ，DMA 控制 器 (经 过 CPU 的 设置 和 和 启动 ) 
就 暂时 “接管 ”CPU 的 角色 ， 成 为 内 存 的 “ 主 设备 ” 代替 CPU 发 出 访问 内 存 和 外 设 寄存 器 所 需 的 地 
址 以 及 控制 脉冲 ， 只 是 操作 的 速度 比 CPU 更 快 。 严 格 地 说 ， 在 这 种 系统 结构 中 ， 外 设 并 没有 变 成 内 存 
的 “ 主 设备 ”而 “当家 作 主 ” 从 而 “直接 ”访问 内 存 ， 而 是 仍然 处 寺 被 动 的 地 位 ， 只 不 过 “ 主 设备 ” 
从 CPU 变 成 了 DMA 控制 器 而 已 。 所 以 ， 从 外 部 设备 的 角度 而 言 ， 比 之 别 的 些 系 统 结构 ， 传 统 PC 
系统 结构 中 的 DMA 有 些 名 不 副 实 。 然 而 ，PCI 总 线 的 设计 推广 了 PC 系统 结构 中 DMA 操作 的 概念 。 
以 前 我 们 曾 提 到 ，PCI 总 线 允 许 连 接 的 总 线 上 的 设备 竞争 成 为 总 线 主 设 备 ， 并 月 可 以 把 内 存 看 成 是 总 
线 上 的 从 设备 。 这 样 一 来 ，PCI 设备 就 有 可 能 真正 当家 作 主 ， 作 为 主 设 备 米 直接 访问 内 存 了 。 当 然 
有 这 种 能 力 的 PCI 设备 接口 的 结构 要 更 复杂 一 些 。 因 具体 设备 性 质 的 不 同 ，PCI 设备 (接口 ) 吕 以 做 成 只 
有 成 为 总 线 主 设 备 的 能 力 ， 也 可 以 不 具备 这 种 能 力 。 对 于 可 以 成 为 总 线 主 设备 的 设备 ， 在 配置 寄存 党 
组 的 命令 寄存 器 中 有 个 控制 位 ， 可 以 允许 或 不 允许 该 设备 (在 融 要 时 ) 参 加 竞争 。IDE 硬盘 (接口 ) 就 具有 
成 为 总 线 主 设备 的 能 力 ， 因 而 可 以 进行 真正 意义 上 的 DMA 操作 。 为 了 与 传统 PC 系统 结构 的 DMA 操 
作 相 区 别 ， 这 种 DMA 操作 称 为 “总 线 主 DMA” (Bus Master DMA) BMDMA. 4% TA. BMDMA 
功能 的 PCI 设备 ， 如 果 有 必要 的 话 ， 仍 可 以 通过 DMA 控制 器 对 其 进行 “DMA” 操 作 。 

为 了 BMDMA 的 需要 ，IDE 接口 中 增设 了 两 组 DMA 省 存 器 ， 分 别 用 于 IDE BEM 上 的 两 个 通道 ， 
这 些 寄存 器 采用 UO HhHb, 4 EHEN IDE 接口 的 第 五 个 地 址 区 站 (配置 寄存 器 组 中 的 resource[4]).. fij 
H, IDE 接口 不 但 能 进行 传统 的 、 单 缓冲 区 的 DMA， 还 能 进行 多 缓冲 区 间 (- .个 区 问 中 可 以 包含 若 十 
连续 的 缓冲 区 ) 的 “ 串 式 ”DMA。 只 要 为 之 准备 下 A “DMA 区 间 表 ”， 表 站 逐个 地 州 出 用 于 DMA f$ 
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作 的 者 二 组 六 区 间 ( 包 括 起 点 与 长 上 度 )， 并 把 这 个 表 的 起 始 地 址 写 入 IDE 接口 上 相应 的 “总 线 主 IDE Hi 
述 表 指针 ”寄存 器 (BMIDTPX)， 则 启动 DMA 操作 以 后 IDE 接口 会 先 从 表 中 找到 第 一 个 缓冲 区 间 的 地 
Hb: 先 成 对 第 一 个 缓冲 区 间 的 操作 以 后 就 会 自动 转 到 第 二 个 缓冲 区 问 ， 如 此 等 等 ， 直 到 完成 对 所 有 组 
冲 区 间 的 操作 。 下 面 读 者 就 会 看 到 ， 一 旦 准备 好 了 DMA KEK, EIM DMA 操作 的 代码 就 很 简单 了 。 

采用 DMA 与 否 只 涉及 很 底层 的 代码 ， 对 具体 设备 驱动 程序 的 结构 并 无 显著 的 影响 。 对 十 IDE B 
盘 的 驱动 ， 区 别 主 要 人 在 底层 函数 do_rw_disk( ) 中 ， 为 方便 阅读 ， 我 们 再 把 这 个 函数 的 有 关 片 断 列 出 于 
下 (drivers/ide/ide-disk.c): 


377 /* 

378 * do rw disk( ) issues READ and WRITE commands to a disk, 

379 * using LBA if supported, or CHS otherwise, to address sectors. 
380 * |t also takes care of issuing special DRIVE CMDs. 

381 */ 


382 static ide startstop t do rw disk (ide drive t *drive, 
struct request *rq, unsigned long block) 


383 { 

423 if (rq->cmd == READ) { 

424 #ifdef CONFIG BLK DEV IDEDMA 

425 if (drive-using dma && ! (HWIF(drive)->dmaproc (ide dma read, drive))) 
426 return ide started; 

427 Hendif /* CONFIG BLK DEV IDEDMA */ 

428 ide set handler(drive, &read_intr, WAIT CMD, NULL): 

429 OLT BYTE(drive-?mult count ? WIN MULTREAD : WIN READ, IDE COMMAND REG); 
430 return ide started; 

431 } 

432 if (rq-^emd == WRITE) { 

433 ide startstop t startstop; 

434 #ifdef CONFIG BLK DEV IDEDMA 

435 if (drive-^»using dma && ! (HWIF(drive}—>dmaproc(ide dma write, drive))) 
436 return ide started; 


437 Hendif /* CONFIG BLK DEV IDEDMA */ 


416 } 


在 423 行 以 前 的 代码 已 经 对 IDE 硬 檀 的 有 关 寄 存 器 (如 要 读 / 写 的 块 号 等 ) 进 行 了 必要 的 设置 。 有 关 
详情 可 参看 前 向 对 程序 控制 IO 方式 的 说 明 。 现 在 ， 剩 下 的 只 是 对 读 / 号 把 作 的 启动 了 。 正 是 在 这 一 步 
E, DMA 与 程序 控制 VO A T PSI. 

当 采 用 DMA 时 ,对 IDE 硬盘 的 谈 / 写 操作 部 是 通过 ide_hwif t 数据 结构 中 提供 的 函数 指针 dmaproc 
完成 ， 只 是 参数 func 一 为 ide dma read. 为 ide_dma_write。 这 个 函数 指针 在 初始 化 时 设置 成 指向 
ide dmaproc( )， 其 代码 在 drivers/ide/ide-dma.c H: 


[do rw. disk( ) > ide_dmaproc( )] 
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447 /* 

448 * ide dmaproc( ) initiates/aborts DMA read/write operations on a drive. 
449 * 

450 * The caller is assumed to have selected the drive and programmed the drive’ s 
451 * sector address using CHS or LBA. All that remains is to prepare for DMA 
452 * and then issue the actual read/write DMA/PIO command to the drive. 

453 * 

454 * For ATAPI devices, we just prepare for DMA and return. The caller should 
455 * then issue the packet command to the drive and call us again with 

456 * ide dma begin afterwards. 

457 * 

458 * Returns 0 if all went well. 

459 * Returns 1 if DMA read/write could not be started, in which case 

460 * the caller should revert to PIO for the current request. 

461 * May also be invoked from trm290. c 

462 */ 


463 int ide dmaproc (ide dma action t func, ide drive t *drive) 
464 { 


465 ide hwif_t *hwif = HWIF (drive) ; 

466 unsigned long dma base = hwif->dma_base; 

467 byte unit = (drive-»select.b.unit & 0x01); 

468 unsigned int count, reading = 0; 

469 byte dma stat; 

470 

471 switch (func) { 

472 case ide dma off: 

473 printk(“%s: DMA disabledWn^, drive->name) ; 

474 case ide dma off quietly: 

415 outb(inb(dma base*2) & ~(1<<(S5tunit)), dma base?2); 
476 case ide dma on: 

477 drive->using dma = (func == ide dma on); 

478 if (drive->using_dma) 

479 outb (inb(dma_baset+2) ; (1<<(5tunit)), dma base*2); 
480 return 0; 

481 . case ide dma check: 

482 return config drive for dma (drive); 

483 case ide dma read: 

484 reading = 1 << 3; 

485 case ide dma write: 

486 SELECT READ WRITE (hwif, drive, func) ; 

487 if (! (count = ide build dmatable(drive, func) )) 

488 return 1; /* try PIO instead of DMA */ 

489 outl (hwif->dmatable dma, dma base + 4); /* PRD table */ 
490 outb (reading, dma base); /* specify r/w */ 
491 outb(inb(dma base42)]6, dma base+2):/* clear INTR & ERROR flags */ 
492 drive->waiting for dma = 1; 

493 if (drive->media !- ide disk) 

494 return 0; 
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495 ide set handler(drive, &ide dma intr, WAIT CMD, dma timer expiry); 
/* issue cmd to drive */ 

496 OUT BYTE(reading ? WIN READDMA : WIN WRITEDMA, IDE COMMAND REG); 

497 case ide dma begin: 

498 /* Note that this is done *after* the cmd has 

499 * been issued to the drive, as per the BM-IDE spec. 

500 * The Promise Ultra33 doesn't work correctly when 

501 * we do this part before issuing the drive cmd. 

502 */ 

503 outb(inb(dma base)|l, dma base); /* start DMA */ 

504 return Q; 

505 case ide dma end: /* returns l on error, 0 otherwise */ 

506 drive->waiting for dma = 0; 

507 outb(inb(dma base)& 1, dma base);  /* stop DMA */ 

508 dma stat = inb(dma baset+2) ; /* get DMÁ status */ 

509 outb(dma stat|6, dma base42);/* clear the INTR & ERROR bits */ 

510 ide destroy dmatable (drive): /* purge DMA mappings */ 

511 return (dma stat & 7) !- 4; /* verify good DMA status */ 

512 case ide dma test irq: /* returns 1 if dma irq issued, 0 otherwise */ 

513 dma stat = inb(dma baset2) ; 

514 Hif O /* do not set unless you know what you are doing */ 

515 if (dma_stat & 4) { 

516 byte stat = GET STAT( ); 

517 outb(dma base+2, dma stat & OxE4); 

518 } 

519 #endif 

520 return (dma stat & 4) == 4; /* return 1 if INTR asserted */ 

521 case ide dma_bad drive: 

522 case ide dma good drive: 

523 return check drive lists(drive, (func -- ide dma good drive)); 

524 case ide dma verbose: 

525 return report drive dmaing(drive); 

526 case ide dma timeout: 

527 #ifdef CONFIG BLK DEV IDEDMA TIMEOUT 

528 /* 

529 * Have to issue an abort and requeue the request 

530 * DMA engine got turned off by a goofy ASIC, and 

531 * we have to clean up the mess, and here is as good 

532 * as any. Do it globally for all chipsets. 

533 */ 

534 #endif /* CONFIG BLK DEV IDEDMA TIMEOUT */ 

535 case ide_dma_retune: 

536 case ide dma lostirq: 

537 printk(’ide_dmaproc: chipset supported %s func only: %d\n’, 

ide dmafunc verbose(func), func); 

538 return l; 

539 default: 

540 printk (“ide dmaproc: unsupported %s func: %dNn ， 


. 319 . 


ide dmafune verbose(func), func); 
541 return 1; 
542 } 
543} 


我 们 在 这 里 只 关心 ide_dma_read 和 ide_dma_write PYFPHE/E ERE 484 行 下 和 面 没有 break 或 return 
语句 , 读 和 写 的 区 别 仅 在 十 变量 reading 的 值 为 0x8 或 0x0，IDE 硬盘 接口 的 BMDMA 命令 寄存 器 中 用 
这 一 位 区 分 操作 的 方 同 。 此 外 ， 在 496 行 后 面 也 没有 break 或 return 语句 ， 也 中 是 说 ide_dma_read 或 
ide_dma_write 操作 都 蕴含 着 ide dma begin 操作 。 宏 操作 SELECT READ WRITE 定义 于 


include/linux/ide.h: 


203 Hdefine SELECT READ WRITE (hwif, drive, func) \ 
204 { \ 

205 if (hwif->rwproc) \ 

206 hwif->rwproc (drive, func) ; \ 

207 | 


其 目的 是 为 一 些 特殊 的 IDE 硬盘 提供 可 能 需要 的 附加 操作 ， 一 般 的 IDE 硬盘 不 需要 附加 操作 ， 这 
个 函数 指针 rwproc 就 为 0。 
启动 DMA 操作 之 前 ， 先 要 通过 ide build dmatable( ) 准 备 好 DMA 区 间 表 。 这 个 函数 的 代码 在 


drivers/ide/ide-dma.c P: 


[do_rw_disk( ) > ide_dmaproc( ) > ide_build_dmatable( )] 


248 int ide build dmatable (ide drive t *drive, ide dma action t func) 
249 f 


250 unsigned int *table = HWIF(drive)—>dmatable cpu; 

251 #ifdef CONFIG BLK DEV TRM290 

252 unsigned int is trm290 chipset = (HWIF (drive)->chipset == ide trm290); 
253 Helse 

254 const int is trm290 chipset = 0; 

255 Hendif 

256 unsigned int count = 0; 

257 int 1; 

258 struct scatterlist *sg; 

259 

260 HWIF(drive)-^sg nents = i = ide build sglist (HWIF (drive), HWGROUP (drive) rq): 
261 

262 sg = HWIF(drive) sg table; 

263 while (i && sg dma len(sg)) { 

264 u32 cur addr; 

265 u32 cur len; 

266 

267 cur addr = sg dma address (sg) ; 

268 cur len - sg dma len(sg); 
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/* 

* Fill in the dma table, without crossing any 64kB boundaries. 
* Most hardware requires 16-bit alignment of all blocks, 

* but the trm290 requires 32-bit alignment. 

*/ 


while (cur len) 1 
if (#+count >= PRD ENTRIES) | 
printk(“%s: DMA table too small\n”, drive->name) ; 
pci unmap sg(HWIF(drive)-^pci dev, 
HWIF(drive)-^sg table, 
HWIF (drive)-^sg nents, 
HWIF(drive)-^sg dma direction); 
return 0; /* revert to P10 for this request */ 
| else 1 
u32 xcount, beount = Ox10000 - (cur addr & Oxffff); 


if (bcount > cur. len) 
bcount = cur len; 
*table^* = cpu to le32(cur addr); 
xcount = bcount & Oxffff; 
if (is trm290 chipset) 
xeount = ((xeount >> 2) = D «€ 18: 
*Lablet+ = cpu to le32(xcount); 
cur addr *- bcount; 
cur len -= bcount; 


if (count) 


printk("%s: empty DMA table?\n”, drive—>name) ; 


else if (fis trm290 chipset) 


*--table |= cpu to 1e32(0x80000000) ; 


return count; 


在 ide hwif t 数据 结构 中 有 两 个 指针 ， 即 dmatable cpu 和 dmatable_dma， 二 者 都 指向 同一 个 用 于 
DMA 区 间 表 的 页 面 ， 这 个 页 面 是 在 初始 化 时 分 配 好 的 。 所 不 同 的 是 ，dmatable_cpu 通过 页 面 的 虚拟 地 
址 指向 这 个 页 面 , 这 是 CPU 所 看 到 的 DMA KAR; 而 dmatable_dma 则 通过 其 物理 地 址 指 问 这 个 页 面 ， 
这 是 IDE 接口 的 DMA 功能 部 分 所 看 到 的 DMA 区 间 表 。 间 时 ，ide_hwif_t 数据 结构 中 还 有 个 指针 
sg_table， 指 向 … 个 scatterlist 结构 数组 。 每 个 scatterlist 结构 都 描述 了 一 个 用 本 DMA 操作 的 缓冲 多 间 ， 
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包括 其 起 始 (虚拟 ) 地 址 address 与 长 度 length。 如 前 所 述 ， 每 个 缓冲 区 间 可 以 包含 苦于 连续 的 缓冲 区 ， 

而 IDE 接口 可 以 对 车 十 个 散布 的 (所 以 称 为 scatterlist) 缓冲 区 间 操 作 。 当 文件 系统 层 要 求 设备 驱动 导 完 
成 对 具体 设备 的 IO 时 ， 交 下 来 的 是 一 个 buffer_head 结构 队列 ， 队 列 中 HREN buffer_head 数据 结构 都 
描述 着 一 个 缓冲 区 。 这 些 缓冲 区 中 有 些 是 互相 连续 的 ， 有 些 则 不 是 ， 所 以 先 要 把 它们 整理 成 若干 个 缓 
冲 区 间 ， 建 立 起 一 个 scatterlist， 为 进一步 建立 DMA 区 间 表 作 好 准备 。 这 种 数据 结构 定义 于 


include/asm-i386/scatterlist.h: 


O DMN DAA 
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struct scatterlist { 


i 


char * address; /* Location data is to be transferred to */ 
char * alt_address; /* Location of actual if address is a 

* dma indirect buffer. NULL otherwise */ 
unsigned int length: 


先 通 过 ide build sglist( ) 根 据 上 其 体 的 操作 请 求 建立 起 一 个 “物理 区 间 表 ”， 把 间 个 操作 请 求 中 互 
相连 续 的 缓冲 区 都 合并 成 缓冲 区 间 ， 这 个 函数 的 代码 在 drivers/ide/ide-dma.c 中 : 


static int ide build sglist (ide hwif t *hwif, struct request *rq) 


{ 
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struct buffer_head *bh; 
struct scatterlist *sg = hwif->sg_ table; 
int nents = 0; 


if (rq->emd == READ) 
hwif->sg_dma_direction = PCI DMA FROMDEVICE; 
else 
hwif->sg dma direction 
bh = rq-»bh; 
do ( 
unsigned char *virt addr = bh->b data; 
unsigned int size = bh->b size; 


PCI DMA TODEVICE; 


while ((bh = bh->b regnext) != NULL) { 
if ((virt addr + size) != (unsigned char *) bh->b data) 
break; 
size += bh->b size; 
} 
memset (&sg[nents], 0, sizeof (*sg)); 
sg[nents].address = virt addr; 
sglnents]. length = size; 
nents-tt; 
} while (bh != NULL); 


return pci_map_sg(hwif->pci_dev, sg, nents, hwif->sg dma direction); 
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OO ————————————— 

这 里 的 函数 pci_map_sg( ) 实 际 上 并 没有 什么 操作 ， 只 是 对 参数 的 合理 性 作 ”: 些 检验 ， 然 后 返回 
nents， 邵 区 间 的 个 数 。 这 样 ， 操 作 请 求 所 涉及 的 一 串 缓冲 区 就 合并 成 了 若 十 区 间 ， 由 一 个 scatterlist 结 
构 数 组 代表 。 数组 的 大 小 为 nents, 最 后 保存 在 ide_hwif_t 结构 的 sg_nents 字段 中 。 ALL, 这 个 scatterlist 
结构 数组 还 不 是 DMA 区 间 表 ， 所 以 在 同 到 ide_build_dmatable( ) 中 (260 行 ) 还 要 据 此 建立 起 DMA 区 间 
表 。 

DMA 区 间 表 也 是 以 缓冲 区 间 为 基础 的 。 但 是 ， 由 十 IDE 接口 中 DMA 控制 部 分 的 设计 ， 绥 冲 区 间 
不 能 跨越 64KB 的 边界 (显然 ， 用 米 发 出 32 位 内 存 地 址 的 寄存 器 分 成 两 截 ， 其 珊 16 位 在 整个 DMA 操 
作 过程 中 国定 不 变 )。 因 此 ， 对 于 scatterlist 结构 数组 中 的 答 个 区 间 ， 代码 中 通过 一 个 while 循环 加 以 检 
A, 如 果 跨 越 了 64KB 边界 就 要 将 其 分 割 成 若干 DMA 缓冲 区 间 。 与 此 同时 ， 则 根据 最 终 形成 的 缓冲 区 
间 建 立 起 DMA 区 间 表 。DMA 缓冲 区 间 不 能 跨越 64KB 边界 ， 如 果 缓 冲 区 间 的 起 点 恰好 与 64KB 边界 
对 齐 , 则 每 个 DMA 缓冲 区 最 大 可 达 64KB, 省 则 就 取决 于 起 点 的 位 置 。 例 如 ， 如 果 缓 冲 区 的 起 点 在 16KB 
处 ， 那 么 最 大 可 达 48KB( 见 285 行 )。DMA 区 间 表 是 个 32 位 无 符号 整数 数组 ， BOP RW TA SE 
数 合 在 一 起 描述 :个 DMA 缓冲 区 ， 称 为 “物理 区 间 描 述 ”(Physical Region Descriptor), RPR AA 
符号 整数 为 缓冲 区 起 点 的 物理 地 址 (289 行 ), 第 -个 为 缓冲 区 的 长 度 (293 47), 均 须 转换 成 Little Ending 
格式 。 区 间 的 起 点 在 一 开始 (267 行 ) 就 通过 宏 操 作 sg_dma_address( ) 转 换 成 了 物理 地 址 ， 所 以 随后 计算 
出 来 (294 行 ) 的 都 是 物理 地 址 。 宏 操作 sg_dma_address( ) 的 定义 在 include/asm-1386/pci.h mi 


164 #define sg dma address(sg) (virt to bus((sg)-^address)) 
165 &define sg dma len(sg) ((sg) ->length) 


总 线 地 址 实际 上 就 是 物理 地 址 ， 宏 操作  virtto bus 也 就 是 virtto_phys， 定 义 于 


include/asm-i386/Ao.h: 


157 /* 
158 * I0 bus memory addresses are also 1:1 with the physical address 
159 */ 


160 #define virt to bus virt to phys 
161 Hdefine bus to virt phys to virt 


为 DMA 区 间 表 分 配 的 空间 是 一 个 页 面 ， 分 用 于 IDE 接口 的 两 个 设备 ， 所 以 等 个 操作 表 的 容量 为 
PRD_ENTRIES, 即 256。 如 果 蓝 求 一 次 就 读 / 写 超过 256 个 DMA 缓冲 区 (难以 想像 )， 那 就 不 能 道 过 DMA 
操作 来 完成 了 ,此 时 ide_build_dmatable( ) 返 同 0, 从 而 使 de_dmaproc( JZ iE! 10, 488 fT). 从 do_rw_disk( ) 
的 代码 中 (425 和 435 行 ) 可 以 看 出 ， 当 ide_dmaproc( ) 返 四 1 时 ， 就 又 回 到 程序 控制 WO 方式 的 代码 中 继 
续 执 行 ， 仍 能 完成 所 要 求 的 读 / 写 ， 只 不 过 效率 低 一 些 而 已 。 

回 到 ide_dmaproc( ) 的 代码 中 (487 行 )， 准备 好 DMA 区 间 表 以 后 ， 下 面 就 是 对 DMA 控制 器 中 有 关 
寄存 器 的 操作 了 。 为 便于 阅读 ， 我 们 再 列 出 这 个 函数 中 的 关键 几 行 : 


[do_rw_disk( ) > ide. dmaproc( )] 


489 out] (hwif->dmatable_dma, dma base + 4); /* PRD table */ 
490 outb(reading, dma base); /* specify r/w */ 
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| 
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outb (inb (dma base+2) |6, dma_base+2) ;/* clear INTR & ERROR flags */ 


drive->waiting for dma = 1; à 
if (drive-^media != ide disk) 
return 0; 


ide set handler(drivo, &ide dma intr, WAIT CMD, 
dma timer expiry); /* issue cmd to drive */ 
OUT BYTE(reading ? WIN READDMA : WIN WRTTEDMA, IDE COMMAND REG) : 
case ide dma begin: 

/* Note that this is done *after* the cmd has 

* been issued to the drive, as per the BM-IDE spec. 

* The Promise Ultra33 doesn't work correctly when 

* we do this part before issuing the drive cmd. 

*/ 

outb (inb (dma_base) |1, dma base); /* start DMA x/ 
return 0; 


HAUTE DMA 区 间 表 的 (物理 ) 地 址 hwif->dmatable_dma 写 入 描述 表 指 针 寄存 器 (489 行 )。 把 操作 的 


方 同 ( 读 或 写 ) 号 入 其 “命令 寄存 器 ”(490 行 )， 并 将 状态 寄存 器 中 的 “中 断 请 求 ” 和 “出 销 ” PIS bs 
位 清 成 0(491 47). IDE 接口 的 DMA 控制 部 分 共有 16 个 字 节 ， 前 8 个 用 于 接口 上 的 第 - -个 设备 ide0， 
后 8 AWH T idel。 根 据 具体 的 设备 ， 初 始 化 时 就 把 相应 ide_hwif t 数据 结构 中 的 字段 dma_base 设置 
成 指向 其 DMA 控制 部 分 的 起 点 ， 这 就 是 这 里 的 dma_base( 见 466 行 ) 。 其 中 从 地 址 dma_base 并 始 是 
8 位 的 命令 寄存 器 ， 从 (dma_base+2) 开 始 是 8 AVIRA ATER, 从 (dma_base+4) 开 始 则 是 32 位 的 描述 表 


指针 寄存 器 。 
然后， 通过 ide set handler( ) 设 管 好 本 次 DMA 操作 结束 时 的 中 断 服务 程序 ide_dma_intr( )， 同 时 


也 设置 好 超时 处 理 程序 dma_timer_expiry(), ide_set_handler( ) 的 代码 在 drivers/ide/ide.c 7h: 


032 
933 
534 
535 
036 
537 
938 
539 
540 
541 
542 
543 
544 
045 
546 
o41 
548 


void ide set handler (ide drive t *drive, ide handler t *handler, 


{ 


} 
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unsigned int timeout, ide expiry t *expiry) 


unsigned long flags; 
ide hwgroup t *hwgroup - HWGROUP (drive): 


spin lock irqsave(&io request lock, flags): 
if (hwgroup-^handler !- NULL) { 
printk( %s: ide set handler: handler not null: old-*p, new=%p\n”, 
drive-^name, hwgroup handler, handler); 


} 


hwgroup->handler = handler; 
hwgroup—>expiry = expiry; 
hwgroup->timer. expires = jiffies + timeout; 


add timer(&hwgroup timer); 
spin unlock irqrestore(&io request lock, flags); 


最 后 , Ir IDE 硬盘 的 命令 寄存 器 发 出 WIN. READDMA 或 WIN. WRITEDMA, 局 动 硬 盘 的 操作 (496 
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行 ), 紧 接 着 (503 行 ) 向 其 DMA 命令 寄存 器 也 发 出 启动 命令 (将 其 最 低位 设 成 1), 此 后 , IDE SERI DMA 
控制 器 的 操作 对 于 CPU 就 是 透明 的 了 。 以 读 操作 为 例 , IDE 硬盘 在 有 了 供 读 出 的 数据 以 后 便 向 其 DMA 
控制 部 分 发 出 电信 号 。 而 DMA 控制 部 分 ， 则 从 DMA 区 间 表 中 找到 第 个 缓冲 区 间 。 然 后 产生 出 有 反复 
A IDE 接口 读 出 数据 并 写 入 缓冲 区 间 所 需 的 电信 和 号。 如 果 … 个 缓冲 区 间 满 了 ， 就 从 DMA 区 间 表 中 找 
到 下 一 个 缓冲 区 间 ， 再 继续 往 里 写 。 这 样 ， 一 直 要 到 完成 了 当前 的 整个 DMA 操作 以 后 才 会 向 CPU 发 
出 一 个 中 断 请 求 ， 使 CPU A DMA 操作 的 中 断 服 务 程序 ide dma_intr( ) 中 ， 这 个 限 数 的 代码 在 
drivers/ide/ide-dma.c P: 


189 /* . 

190 * dma intr( ) is the handler for disk read/write DMA interrupts 
191 */ 

192 ide startstop t ide dma intr (ide drive t *drive) 

193 { 

194 int i; 

195 byte stat, dma_stat; 

196 

197 dma stat = HWIF (drive)->dmaproc (ide_dma_end, drive); 

198 stat = GET_STAT( ); /* get drive status */ 

199 if (OK_STAT (stat, DRIVE READY, drive->bad_wstat DRQ_STAT) ) { 
200 if (!dma_stat) { 

201 struct request *rq = HWGROUP (drive)-?rq; 

202 rq = HWGROUP(drive)-^rq; 

203 for (i = rq->nr_sectors; i > 0;) | 

204 i -= rq-?current nr, sectors; 

205 ide end request(l, HWGROUP (drive)); 

206 j 

207 return ide stopped; 

208 } 

209 printk("%s: dma intr: bad DMA status\n”, drive-^name); 
210 } 

211 return ide error(drive, "dma intr^, stat); 

212 } 


DMA 中 断 的 发 生意 味 着 一 次 DMA 操作 的 结束 ， 因 此 以 功能 码 ide_dma_end 为 参数 调用 
ide_dmaproc( )。 同 样 ， 为 方便 阅读 ， 我 们 再 把 这 个 函数 中 有 关 的 片断 列 出 于 下 : 


[ide_dma_intr( ) > ide_dmaproc( )] 


505 case ide dma end: /* returns 1 on error, 0 otherwise */ 

506 drive->waiting for dma = 0; 

507 outb(inb(dma base)& 1, dma base);  /* stop DMA */ 

508 dma stat = inb(dma base*2); /* get DMA status */ 

509 outb(dma stat|6, dma base*2); /* clear the INTR & ERROR bits */ 
510 ide destroy dmatable(drive):; /* purge DMA mappings */ 

511 return (dma stat & 7) != 4; /* verify good DMA status */ 
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首先 将 DMA fib tan > AF RI eR rs 0, RS IET: 然后 读 入 其 状态 寄存 器 ， 并 将 其 中 
断 标 志 位 INTR 和 出 错 标志 位 清 0。 这 里 还 调用 了 一 个 函数 ide destroy dmatable( ), HABE 
drivers/ide/ide-dma.c "P: 


[ide dma intr( ) > ide dmaproc( ) > ide destroy dmatable( )] 


311 /* Teardown mappings after DMA has completed. */ 
312 void ide destroy dmatable (ide drive t *drive) 


313 { 

314 struct pci dev *dev = HWIF(drive)—>pci_dev; 

315 struct scatterlist *sg = HWIF(drive)—>sg table; 

316 int nents = HWIF(drive)—>sg_nents; 

317 

318 pci unmap sg(dev, sg, nents, HWIF(drive}—>sg dma direction); 
319  ] 


这 里 的 pci_unmap_sg() 实 际 上 并 没有 什么 操作 。 其 实 ，DMA 区 间 表 也 无 须 废除 ， 用 于 DMA KE 
表 的 页 面 并 不 需 归 释放 ， 下 “次 要 进行 DMA 操作 时 月 会 再 在 同一 个 页 面 中 建立 起 新 的 DMA KAR. 

然后 ， 如 果 状 态 寄存 器 指示 操作 并 未 出 错 ， 则 对 操作 请 求 中 涉及 的 缓冲 区 调用 ide_end_request( ). 
这 个 函数 的 代码 已 经 在 打 面 讲述 程序 控制 VO 时 读 过 了 ， 读 者 可 以 回 过 去 复习 一 下 。 另 一 方面 ， 这 也 
说 明 DMA 操作 和 程序 控制 VO 殊途同归 ， 部 到 了 调用 ide_end_request( ) 的 时 候 ， 下 面 就 都 一 样 了 。 


上 面 我 们 以 IDE 使 盘 为 例 说 明了 块 没 备 的 驱动 。 实 际 的 块 设备 种 类 当然 很 多 ， 光 是 IDE 设备 就 有 
硬 盟 、 软 盘 、 磁 带 、 光 盘 〈CD_ROM) 及 可 写 光 盘 等 。 我 们 不 可 能 在 一 本 书 中 一 一 加 以 介绍 ， 但是， 
只 时 理解 了 对 IDE 硬盘 的 驱动 ， 读 者 在 进步 阅读 分 析 其 他 设备 的 驱动 程序 代码 时 就 不 至 十 有 太 大 的 
问题 了 。 此 外 ， 除 IDE 硬盘 外 ，SCSI 硬盘 也 是 很 常用 的 ， 但 是 限于 篇 幅 我 们 也 不 能 对 SCSI MAUR 
有 关 设 备 的 张 动 岩 作 介 绍 了 。 有 有 兴趣 或 需要 的 读者 可 以 参考 有 关 专 著 或 技术 资料 ， 自 行 阅读 有 关 的 代 
码 ， 这 些 代码 大 多 在 drivers/scsi HF F- 

最 后 ， 还 有 一 个 非常 值得 一 提 的 话题 是 磁盘 阵列 。 在 drivers/md 目录 下 有 raid0.c、raidl.c 等 文件 
是 关 丁 侯 盘 阵列 的 ， 但 是 限 十 篇 幅 也 不 能 在 本 书 中 加 以 介绍 ， 而 只 好 留 给 恋 者 了 。 读 者 也 许 对 此 感到 
Wf. dedu E Rp. 


8.6 字符 设备 驱动 概述 


在 内 核 中 ,字符 设备 的 驱动 是 最 多 样 、 最 灵活 多 变 的 部 分 。 这 首先 是 因为 字符 设备 本 堵 的 多 样 性 , 

各 种 学 和 从 设备 在 作用 、 功 能 、 结 构 等 等 方面 真是 五 花 八 门 。 有 的 “字符 设备 ”其 全 并 涉 十 字面 意义 上 

的 “设备 ”， 如 下 和 面 要 讲 到 的 /dev/null 就 是 一 个 例子 ， 而 有 的 则 又 相当 复杂 而 需 槛 把 红 动 程序 进一步 

划分 成 若干 子 层 , 或 者 进 -… 步 分 解 成 者 干 项 低层 的 设备 ， 如 PC 机 的 控制 台 终 端 实际 上 就 包括 了 显示 器 

和 键 生 。 其 次 ， 这 种 多 样 性 还 来 自 对 设计 和 开发 字符 设备 驱动 程序 的 广泛 参与 。 全 上 志 界 通过 英 特 网 参 

与 Linux 开发 的 人 数 以 千 计 ， 如 果 说 如 进程 、 调 度 、 进 程 间 遂 信 、 内 存 管理 等 方面 的 工作 相对 而 言 还 
- 326 . 
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比较 集中 于 某 一 些 核心 人 士 的 话 ， 堵 么 对 才 设 备 驱动 ， 特 别 是 字符 设备 驱动 方面 的 工作 就 分 布 得 很 广 
了 。 这 种 广泛 的 参与 当然 会 带 来 一 些 风 格 上 上、 技巧 运用 上 、 程 序 结构 上 的 多 样 性 。 不 过 ， 由 十 Linux 
内 核 总 体 上 的 结构 性 和 模块 性 ， 这 种 多 样 性 只 是 次 要 的 ， 并 不 占 主导 地 位 。 最 后 ， 多 样 性 还 来 自 不 同 
的 历史 渊源 。 其 中 最 重要 的 是 对 一 些 〈 并 非 全 部 ) 网 络 设备 (如 Ethernet 接口 卡 ) 的 上 驱动 ， 这 些 设备 
的 驱动 从 开始 就 纳入 了 “搬出 ” Cocke) 机 制 的 范畴 而 并 不 遵循 Unix/Linux 为 设备 驱动 设计 的 统一 
的 格局 ， 屠 就 是 通过 主 设备 号 /次 设备 号 来 区 分 设备 并 有 日 引导 CPU 进入 具体 设备 的 驱动 程序 。 因此， 这 
些 设备 似乎 既 不 属于 上 设备 ， 也 不 属于 学 符 没 备 ， 其 驱动 方式 自 成 一 格 ， 并 且 没 有 相应 的 “设备 文件 ”。 
由 于 篇 幅 的 限制 ， 本 书 将 不 涉及 网 络 方面 的 内 容 ， 而 上 只 专 注 于 传统 的 设备 驱动 模式 。 尽 管 有 些 网 络 设 
备 的 张 动 实际 上 确实 遵循 这 种 统一 的 格局 ， 我 们 也 只 好 从 略 。 

正如 我 们 反复 讲 过 的 那样 ， 传 统 的 、 统 :的 Unix 设备 驱动 是 以 主 /次 设备 号 为 岗 的 。 等 项 设备 都 
属于 块 设备 或 字符 设备 ， 部 有 惟 ， :的 主 设 备 号 利 次 设备 号 ， 疝 内核 中 则 有 块 设 备 表 和 字符 设备 胡 ， 根 
据 设备 的 类 型 和 主 设 备 写 便 可 通过 这 册 个 设备 表 之 一 找到 相应 的 驱动 函数 跳 转 结构 ， 而 次 设备 号 则 … 
般 只 用 作 同 类 型 设备 中 其 体 设备 项 的 编号 (通常 决定 大 接口 的 VO 地 址 ) . Bæ, HPS R ANS 
样 性 ， 有 时 候 也 用 次 设备 号 作 进一步 的 归 类 。 这 方面 典型 的 例子 就 是 终端 设备 TTY. TTY 设备 是 字符 
设备 ， 主 设备 号 为 4， 但 是 当 次 设备 号 为 0 时 表示 “当前 虚拟 控制 终端 ”， 而 1-63 Xn 63 个 串 能 的 
“虚拟 控制 终端 ”，64 一 255 则 表示 192 个 可 能 的 串 行 门 UART( 通 用 异步 收发 器 ) 和 连接 在 上 面 的 实际 
终端 设备 。 这 里 所 谓 实 际 终端 设备 通常 十 指 老式 的 CRT 终端 ， 或 “ 笨 终 端 ”， 而 “虚拟 控制 终端 ” 则 
通常 是 建立 在 PC 机 的 显示 器 和 图 形 接 口 卡 基 础 上 的 。 显 然 , 在 这 里 相同 的 主 设备 写 并 不 意味 着 相同 的 
驱动 程序 。 由 于 控制 终端 的 重要 性 和 复杂 性 ， 我 们 将 用 两 节 的 篇 幅 专 门 介绍 它 的 驱动 程序 。 男 一 个 倒 
子 是 主 设备 号 为 1 的 “字符 设备 ”， 当 次 设备 号 为 1 时 表示 物理 内 存 /dev/imem， 为 2 时 则 表示 内 核 的 
虚 存 空间 /dey/kmem, 为 3 时 就 表示 “ 空 设 备 ”/devinull; 而 次 设备 号 8 则 表示 随机 数 生 成 器 /devrandom。 
类 似 的 情况 在 块 设备 中 虽然 也 有 “〔 例 如 对 软 扒 设备 ) ， 但 是 很 少 。 随同 Linux 内 核发 布 的 一 个 文件 
Documentation/devices.txt 列举 了 对 块 设备 和 字符 设备 两 种 主 设 备 号 和 次 设备 号 的 分 配 和 指定 ， 读 者 可 

以 前 我 们 还 讲 过 ， 每 项 设备 者 有 一 个 代表 着 它 的 设备 文件 。 但 是 ， 当 一 项 设备 的 上 并 动 划分 成 知 十 
层次 而 形成 一 个 所 谓 设 备 驱动 屋 “ 堆 栈 ”， 尤 其 是 当 遂 过 若 下 个 可 安装 模块 实现 时 ， 网 引发 了 一 个 问 
E. 这 项 设备 由 儿 个 设备 文件 代表 ?是 等 … 子 层 都 有 :个 文件 还 是 整个 “堆栈 ”只 由 一 个 文件 代表 ? 
我 们 知道 ， 所 谓 一 个 设备 文件 代表 :项 设备 ， 实 质 上 是 代表 一 个 豫 动 程序 的 入 口 以 及 与 之 相 联系 的 数 
据 结构 。 用 “面向 日 标 程序 设计 ”的 话 来 说 ， 就 是 代表 着 一 个 目标 。 所 以 ， 一 个 其 体 的 子 层 〈 模 块 ) 
是 耕 有 相应 的 设备 文件 取决 于 起 否 构 成 意义 上 独立 的 “设备 ”。 在 “可 安 总 模块 ” -市 里 所 引 的 例子 
中 ， 低 层 模块 -方面 向 其 【 层 登 记 ， 另 一 方面 义 在 文件 系统 中 创建 起 相应 的 设备 文件 市 点 ， 束 是 因为 
这 个 模块 本 身 就 构成 项 独立 的 设备 ， 应 用 程序 有 可 能 需要 绕 过 其 岛 层 自 接 进行 痰 / 与 。 另 一 方面 ， 当 
从 :个 层次 进入 下 一 个 层次 时 ， 通 常 意味 着 一 次 选择 ， 因 此 需要 加 以 引导 。 以 上 面 提 到 的 “虚拟 终端 ” 
为 例 ， 当 从 虚拟 终端 层 进入 “物理 终端 ” 层 时 ， 就 意味 着 次 选择 ， 或 者 说“ 转 接 ”: 这 个 物理 终端 
iX EITO UART Ef “Em” (或 者 模拟 每 终端 的 计算 机 ) Wi? 还 是 接 在 VGA 卡 上 的 显 
示 器 ?我 们 在 块 设备 驱动 一 节 中 看 到 了 ， 在 类 似 的 情况 下 是 由 主 设备 号 /次 设备 号 引导 的 ， 但 那 并 不 古 
惟一 的 方法 。 从 上 层 进入 下 层 的 路 径 既 可 以 临时 加 以 选择 〈 例 如 根据 设备 号 ) ， 也 可 以 预先 设置 好 。 
这 种 设置 可 以 在 系统 《或 设备 ) 初始 化 时 进行 ， 也 可 以 通过 对 高 层 的 oct ) 操 作 随时 进行 ， 述 可 以 是 

- 327 . 


Linux 内 核 源 代码 情景 分 析 〔 下 册 ) 

程序 中 国有 的 。 在 以 后 几 节 中 ， 读 者 将 通过 阅读 代码 看 到 这 些 技巧 的 运用 。 

在 这 一 节 中 ， 我 们 将 阅读 几 个 简单 字符 设备 驱动 程序 的 源 代码 ， 这 些 设备 都 是 比较 简单 的 ,以 后 还 
将 阅读 虚拟 终端 驱动 程序 的 代码 ， 那 就 比较 复杂 了 。 由 于 打开 设备 文件 的 过 程 都 大 致 相同 ， 我 们 就 不 
再 重复 ， 而 直接 从 设备 的 fl operations 数据 结构 开始 。 

我 们 要 看 的 第 一 个 字符 设备 , 其 实 谈 不 上 是 “设备 ”, 但 是 却 很 常用 , 那 就 是 “ 空 设 备 ”, BI/dev/null. 
大 家 知道 ， 应 用 程序 在 运行 的 过 程 中 一 般 都 要 通过 其 预先 打开 的 标准 输出 通道 或 标准 出 错 信息 通道 在 
终端 显示 屏 上 输出 … 些 信息 ， 但 是 有 时 候 〈 特 别 是 在 批 处 理 中 〉 不 宜 在 显示 屏 上 显示 这 些 信 息 ， 又 不 
宜 将 这 此 信息 重 定向 到 个 磁盘 文件 中 ， 而 要 求 直接 使 这 些 信 息 流入 “下 水 道 ” 而 消失 ， 这 时 候 就 可 
以 用 /dewnull 来 起 这 个 “下 水 道 ” 的 作用 。 如 前 所 述 ， 这 个 设备 的 主 设备 号 为 1。 主 设备 号 为 1 的 设备 
其 实 并 不 是 “设备 ”， 而 都 是 与 内 存 有 关 ， 或 者 在 内 存 中 不必 通过 外 设 ) 吏 可 以 提供 的 功能 ， 所 以 
其 符号 为 MEM_MAJOR， 定 义 见 major.h: 


19 #define MEM MAJOR 1 


其 file operations 结构 为 memory. fops. 5E X. Jl drivers/char/mem.c: 


613 static struct file operations memory fops = { 
614 open: memory open, /* just a selector for the real open */ 
615 hy 


但 是 ， 如 前 所 述 ， 主 设备 号 为 1 的 字符 设备 需要 根据 次 设备 号 进一步 区 分 具体 的 设备 驱动 程序 ， 
所 以 memory. fops 还 不 是 最 终 的 file operations 数据 结构 ,还 需要 由 memory. open( ) 进 一 步 加 以 确定 和 
设置 ， 其 代码 在 同一 文件 (mem.c) 中 : 


549 static int memory_open(struct inode * inode, struct file * filp) 
550 


551 switch (MINOR(inode—^i rdev)) { 
552 case 1: 

553 filp-^f op = &mem fops; 
554 break; 

555 case 2: 

556 filp-^f op - &kmem fops; 
557 break; 

558 case 3: 

559 filp->f_op = &null fops; 
560 break; 

561 #if !defined(  mc68000 ) 

562 case 4: 

563 filp-^f op = &port fops; 
564 break; 

565 #end if 

566 case 5: 

567 filp-^f op = &zero fops; 
568 break; 


.328 . 


第 8 章 设备 驱动 
569 case 7: 
570 filp->f op = &full fops; 
571 break; 
572 case 8: 
573 filp->f_op = &random_fops; 
574 break; 
575 case 9: 
576 filp->f_op = &urandom fops; 
577 break; 
578 default: 
579 return -ENXIO; 
580 } 
581 if (filp->f op && filp-^f op-^open) 
582 return filp-^f op-?open(inode, filp); 
583 return 0; 
584 } 


因为 /dev/nuli 的 次 设备 号 为 3, 所 以 其 最 终 的 file operations 数据 结构 为 null_fops, 仍 定义 于 mem.c: 


521 static struct file operations null_fops = { 


522 llseek: null lseek, 
523 read: read null, 
524 write: write null, 
55 }; 


由 于 这 个 结构 中 的 函数 指针 open 是 NULL, 在 打开 文件 时 没有 任何 附加 操作 。 当 通过 write( ) 系 统 
调用 写 这 个 文件 时 ， 相 应 的 驱动 消 数 为 write_null( )， 这 个 函数 的 代码 也 在 mem.c 中 : 


344 static ssize_t write_null (struct file * file, const char * buf, 


345 size t count, loff t *ppos) 
346 { 

347 return count; 

348 ] 


就 是 说 ， 它 什么 也 不 干 ， 而 只 是 返回 count， 假 装 划 求 号 入 的 那么 多 字 节 都 已 经 写 好 了 ， 实 际 的 效 
果 就 是 把 要 写 的 内 容 都 丢弃 了 (读者 也 许 会 联想 到 某 些 公务 员 的 行为 特征 )! 
那么 ， 通 过 系统 调用 read( ) 的 读 操作 又 如 何 ? 再 看 read, null( ) 的 代码 : 


338 static ssize t read null (struct file * file, char * buf, 


339 size t count, loff t *ppos) 
340 { 

341 return 0; 

342} 


返回 0 表示 从 这 个 文件 中 读 了 0 个 字 节 , 但 是 并 未 到 达 (永远 不 会 到 达 ) 文件 的 末尾 EOF, 即 一 1。 
当然 ， 字 符 设备 的 驱动 不 会 都 这 么 简单 ， 但 是 总 的 框架 是 一 样 的 。 
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8.7 Z 端 设 备 与 汉字 信息 处 理 


每 个 受 控 制 的 系统 都 要 有 个 “控制 台 ”《〈console) ， 主 要 用 于 系统 的 引导 、 控 制 和 管理 。 最 原始 
的 控制 台 是 一 些 开关 之 类 的 东西 ， 后 来 改 成 了 电动 打字 机 (TTY 就 是 电动 打字 机 的 意思 ) ， 再 后 来 又 
改 成 了 CRT 终端 ， 即 带 显 象 管 的 终端 ， 大 多 是 个 带 智 能 的 所 谓 “ 笨 终端 ”。 另 一 方面 ， 系 统 的 用 户 ， 
特别 是 在 多 用 户 系 统 中 ， 也 需要 有 个 作为 人 机 交互 手段 的 独立 的 终端 设备 ， 一 般 也 都 采用 CRT 终端 。 
特别 地 ， 用 户 向 系统 登录 时 使 用 的 终端 就 称 为 该 用 户 的 “控制 终端 ”。 在 早期 的 应 用 中 ， 这 些 终端 一 
般 都 是 面 同 文字 的 ， 特 别 是 面向 拼音 文 宁 的 《如 英文 、 俄 文 等 ) ， 一 般 都 没有 图 形 /图 像 功 能 ， 通 常 也 
不 要 求 很 强 的 脱 机 编辑 功能 ， 所 以 在 终端 设备 中 一 般 不 需要 有 微 处 理 器 ， 或 者 说 不 带 智能 ， 所 以 称 为 
“ 笨 终 端 ”。 严 格 说 来 ， 纯 粹 作为 控制 台 使 岂 的 设备 与 作为 控制 终端 使 用 的 设备 在 功能 要 求 上 有 所 不 
回 ， 但 是 相 比 之 下 这 些 不 同一 般 者 不 大 ， 由 此 而 造成 的 设备 价格 上 的 不 同 也 并 不 突出 ， 所 以 人 们 常常 
倾 加 于 采用 同类 的 终端 设备 ， 而 把 其 中 一 台 保 留 给 “系统 管理 员 ” 用 作 控 制 台 。 

随 着 计算 机 应 用 的 普及 和 发 展 ， 伍 有 些 应 用 中 对 终端 设备 有 了 -… 些 特殊 的 要 求 ， 例 如 对 图 彤 /图 像 
的 交 持 、 对 脱 机 编辑 功能 的 要 求 等 等 ， 而 其 中 最 重要 的 则 英 过 于 对 非 拼 音 文 字 如 汉 宁 、 日 文 等 等 的 支 
持 。 这 些 终端 设备 的 功能 都 比较 复杂 ， 所 以 本 身 部 带 有 微 处 理 器 而 成 为 “智能 终端 ”。80 年 代 初 期 人 
们 常常 看 到 的 “汉字 终端 ”就 是 支持 汉字 输入 和 显示 的 管 能 终端 ， 但 是 智能 终端 的 路 现 并 不 给 操作 系 
统 内 核 的 设计 和 实现 带 来 显著 的 影响 。 以 汉字 终端 为 例 , 内 核 只 要 不 排斥 16 位 的 汉字 编码 就 可 以 了 (一 
般 而 言 ，Unix 内 核 并 不 排斥 汉字 编码 》。 具 体 到 对 汉学 的 输入 、 显 示 、 打 印 和 各 种 处 理 都 是 由 汉字 终 
器 、 中 文 打 印 机 以 及 各 种 中 文 应 用 软件 在 操作 系统 以 外 提供 支持 的 。 那 时 候 ， 典 型 的 计算 机 系统 形式 
就 是 一 全“ 主机 ” 带 上 许多 终端 ， 其 中 一 台 是 由 系统 管理 员 使 用 的 “控制 台 ”。 

个 人 计算 机 《PC) 的 出 现 和 发 展 使 情况 发 生 了 显著 的 改变 。 在 PC 机 |:， 人 们 通过 显示 器 和 键盘 
《通常 还 有 鼠标 器 》 进 行人 机 交互 。 这 些 设备 合 在 一 起 既 用 作 系 统 的 控制 台 又 是 用 户 的 控制 终端 ， 而 
且 与 “主机 ”融合 在 了 一 起 ，CPU 的 部 分 “能 力 ” 就 用 于 显示 器 和 键盘 的 上 驱动。 这样 ， 应 来 独立 存 
在 于 终端 设备 中 的 一 些 功 能 ， 例 如 对 文字 时 水 的 支持 ， 就 转移 到 了 系统 的 内 核 中 。 以 英文 字母 的 显示 
为 例 ， 在 以 前 采用 每 终端 的 Unix 系统 中 ， 内 核 上 只 辈 把 代 才 铸 字 母 的 编码 通过 串 行 由 送 给 控制 终端 (或 
控制 台 ) 就 行 了 ， 下 面 就 是 具体 终端 的 事 了 ， 主 机 对 此 既 人 不 需 关 心 也 烤 长 典 及 。 而 现在 却 不 同 了 ,内 
核 可 能 北 管 到 屏 徊 上 的 每 个 像素 为 止 ， 包括 根据 具体 字母 的 代 人 友和 字体 找到 代表 着 该 字母 的 “字模 ” 
点 阵 ， 然 后 将 该 点 阵 中 的 每 一点 都 映射 到 屏 面 上 的 一 个 像素 。 显 然 ， 这 就 相当 于 在 原先 Unix/Linux 内 
核对 终端 设备 的 歧 动 称 序 中 又 增加 了 …- 层 ， 使 颈 动 程序 更 加 复杂 ， 但 是 同时 也 使 对 终端 设备 的 驱动 更 
加 灵活 。 例 如 ， 这 么 一 来 ， 对 字体 的 选择 、 颜 色 的 改变 以 及 字母 的 放大 /缩小 等 等 就 比较 容 切实 现 了 。 
而 特别 重要 的 是 ， 对 非 英 文字 母 以 及 非 拼 首 文字 的 支持 就 基本 上 上 喇 以 不 依赖 于 硬件 了 。 但 是 ， 另 -- 方 
面 ， 山 显示 器 和 键盘 所 构成 的 终端 设备 并 不 是 Linux 内 核 所 支持 的 惟一 终端 设备 。 愉 鉴 在 PC 机 的 申 行 
Fl CCOMI/COM2) 上 插 上 笨 终 靖 《 或 者 用 来 模拟 第 终 端的 其 他 PC ALD ， 号 照样 可 以 把 运行 着 Linux 
的 PC 机 用 于 多 上 用户 环 境 。 进一步， 如 果 在 PC 机 上 加 上 足够 的 串 行 接口 ， 就 照样 可 以 带 上 儿 十 个 其 全 
上 白 个 终端 而 成 为 名 副 其 实 的 “主机 ”。 当 然 ， 对 连 在 串 行 口上 的 终端 的 驱动 不 同 于 对 显示 器 和 键盘 
RISK. Linux 内 核对 汉字 输入 和 显示 的 支持 只 限 十 其 控制 台 ， 即 显示 器 和 键盘 。 也 就 是 说 ， 如 果 要 在 
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除 显示 器 和 键盘 以 外 的 用 户 界 面 上 终端 上 ) 支持 汉字 ， 那 么 这 些 终端 或 用 户 界 面 本 身 跳 得 市 有 管 能 
而 支持 汉字 的 输入 和 显示 ,例如 汉字 终端 ,或 者 在 其 他 PC 机 上 运行 的 汉字 终端 仿真 软件 以 及 《在 web 
环境 下 ) 支持 汉字 的 浏览 器 等 。 不 过 ， 技 术 发 眶 的 趋向 是 连 成 网 络 的 PC 机 (或 “工作 站 ”)， 所 以 实际 
上 已 经 很 少 有 对 汉字 终端 的 需求 了 。 

最 后 ， 还 有 一 个 问题 也 是 要 考虑 的 ， 那 就 是 与 时 有 软件 的 兼容 性 。- 般 而 言 ， 在 Unix 上 开发 的 C 
语言 程序 拿 到 Linx 上 重新 编译 以 后 就 应 该 可 以 运行 ， 而 “Shell script” (Shell 过 程 ) MARR Ge 
多 略 加 修改 ) 就 可 以 执行 。 这 样 ， 就 不 允许 对 设备 驱动 的 用 户 界面 作 太 大 的 改动 ， 例 如 不 能 将 由 显 不 
器 和 键盘 构成 的 终端 与 普 道 终端 通过 不 同 的 主 设备 号 加 以 区 分 ， 否 则 砸 到 类 似 “echo please wait >> 
Mewtty0” 的 语句 就 不 能 执行 了 。 可 见 ， 将 Unix 内 核 的 终端 设备 驱动 加 以 改造 ， 使 之 既 适 合 由 显示 器 
和 终端 构成 的 特殊 终端 设备 ， 又 适合 普通 的 、 传 统 的 终端 设备 ， 还 要 考虑 到 兼容 性 ， 确 是 Ae 
战 性 的 任务 ， 而 对 多 种 文字 的 支持 ， 则 使 它 更 加 复杂 了 。 

在 迄今 为 止 的 计算 机 发 展 史上 ， 大 部 分 的 技术 和 应 用 都 首先 出 现在 美国 和 欧洲 ， 因 而 最 初 邦 是 以 

英文 为 载体 的 。 英 文 是 拼音 文字 ， 而 且 其 字母 表 又 很 小 ， 连 人 小 写字 母 加 数字 加 常用 符号 全 都 得 上 还 
不 到 127 个 ， 所 以 英文 (美国 英文 ) 的 编码 方案 ASCI 是 7 位 的 ， 这 又 正好 与 初期 的 RS232 串 行 接口 
每 次 只 能 传输 7 位 〈 另 一 位 用 作 检 错 》 相符 。 虽然 当时 在 计算 机 中 已 经 广泛 采用 以 8 位 为 一 个 宁 市 ， 
在 用 来 存储 字符 时 则 国定 使 最 高 位 为 0。 后来， 由 于 考虑 到 一 些 特殊 符号 ,， 如 一 些 数学 符号 和 常州 的 布 
腊 字母 ， 再 说 RS232 捉 行 接口 上 的 传输 也 变 得 可 靠 而 不 再 需要 对 传输 的 每 个 字符 都 加 上 奇 倘 检 验 ， 才 
把 ASCIL 编码 扩充 成 8 位 。 然 而 ， 当 要 把 计算 机 技术 和 应 用 推广 〈 或 者 销售 ) 到 其 他 国家 和 地 以 时 ， 
不 可 避免 地 会 碰 到 一 个 问题 ， 那 就 是 文字 “本 土 化 ”的 问题 ， 即 对 所 在 国家 或 地 区 的 文字 的 支持 问题 。 
世界 上 多 数 国家 都 使 用 拼音 文字 ， 尽 管 其 字 凡 表 有 大 有 小 ， 但 是 8 位 的 编码 可 以 容纳 256 个 代码 ， 
般 都 够 了 ， 而 卫 恰 好 字 节 的 大 小 也 是 8 位 ，RS232 串 行 口 的 传输 也 是 每 次 8 位 ， 所 以 用 一 个 字 节 表示 
一 个 字符 就 成 了 事实 上 的 国际 标准 。 但 是 ， 还 有 些 国家 和 地 区 使 用 的 是 非 拼 音 文 字 ， 其 中 最 主要 的 就 
是 所 谓 CJKV， 邮 中 文 、 日 文 、 朝 鲜 文 和 越南 文 。 可 想 而 知 ， 对 于 像 中 文 这 样 的 非 拼音 文字 ， 要 继续 以 
一 个 字 节 表示 一 个 字 是 不 可 能 的 ， 因 为 个 字 节 总 共 才 有 256 种 不 同 的 编码 。 但 是 到 底 以 几 个 字 习 表 
示 一 个 汉字 ， 每 个 字 节 中 用 7 位 还 是 8 位 ， 是 癌 定 长 度 还 是 可 变 长 度 ， 怎 样 编码 ， 在 一 个 学 符 只 中 入 
否 允 许 混合 使 用 单字 节 编 码 和 多 宁 节 编 包 ， 以 及 怎样 在 二 者 之 间 切 换 等 等 ， 则 都 是 值得 研究 的 课题 。 
事实 上 ， 在 不 同 的 地 区 、 不 同 的 条 件 下 已 经 发 展 起 了 多 种 不 同 的 编码 方案 。 

很 自然 地 ， 将 各 种 文字 的 编码 方案 加 以 标准 化 和 一 体 化 的 努力 也 就 应 运 而 生 。 这 里 所 谓 “标准 化 ” 
是 指 国际 标准 或 跨国 行业 标准 的 制订 ， 伯 一体 化 则 是 指 将 世界 上 所 有 的 文字 都 纳入 同 -编码 方案 《以 
及 标准 ) 里 面 。 回 顾 这 方面 的 历史 ， 下 面 几 个 标准 是 必须 据 刘 鸣 : 

(1) ”美国 标准 ASCII. 

(2) 国际 标准 ISO646。 

(3) ”国际 标准 ISO8859。 

(4) ”国际 标准 ISO2022 和 中 国 国标 7 位 GB2312。 

(5) Unix 行业 标准 EUC 和 中 国 国标 8 位 GB2312 及 GBK. 

(6) ”计算 机 及 信息 行业 标准 Unicode. 

(7) 国际 标准 1SO10646。 

先 要 说 明 ， 我 们 在 这 里 只 是 为 阅读 利 理解 Lins 内 核 代码 以 及 汉化 Linux 内 核 的 需要 而 介绍 一 些 背 
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景 材 料 ， 采 取 的 是 “ 带 着 问题 学 ”的 实用 主义 态度 。 读 者 要 了 解 详 细 的 、 比 较 完 整 的 材料 应 参阅 有 关 
专著 以 及 这 些 标准 的 文本 。 

美国 的 国家 标准 ASCH (美国 标准 信息 交换 码 ) 公布 于 70 年 代 前 期 这 个 标准 把 数据 交换 采用 的 纺 
码 定 为 7 位 。 这 一 方面 是 由 于 当时 通过 串 行 接 门 RS232 的 数据 传输 还 不 太 可 靠 ， 需 要 对 等 个 代码 使 用 
一 位 作为 奇偶 校 验 ， 而 且 当 时 传输 的 速度 也 比较 低 ， 能 够 在 每 个 代码 中 节省 下 一 位 就 可 以 使 总 体 的 天 
叶莉 增加 10% 左 右 。 再 说 ， 当 时 人 们 的 头脑 中 可 能 觉得 7 位 已 是 不 简单 了 ， 人 在 此 之 前 还 使 用 过 5 位 和 
6 位 编码 呢 。 男 一 方面 ， 当 时 的 人 们 也 觉得 超过 7 位 是 没有 必要 的 ， 因 为 7 位 编码 的 容量 是 128, MA 
国 英 语 中 的 可 打印 字符 才 94 个 〈 包 括 空 格 在 内 ) 。 至 十 非 打印 字符 ， 除 了 作为 控制 字符 使 用 外 ， 当 时 
的 人 们 也 看 不 出 在 数据 交换 中 有 多 大 用 处 。 当 叶 的 计算 机 内 部 结构 可 说 是 五 彩 缤纷 ， 有 的 厂家 采用 8 
ie, ARMY) 家 采用 10 位 ， 数 据 的 内 部 表示 也 由 厂家 自己 定义 CBM 就 采用 8 位 EBCDIC 编码 》， 所 
以 除了 采用 划一 的 “打印 模式 ”外 ， 确 实 也 看 不 到 有 “透明 ”地 传输 计算 机 内 部 数据 的 必要 性 和 可 行 
性 。 随 着 计算 机 技术 的 发 展 ，ASCII 自然 地 变 成 了 事实 FE 的 转 际 标准 。 个 慰 准 一 旦 制订 发 布 ， 各 种 
软件 束 会 以 此 为 准 来 设计 和 和 开发。 这 样 ， 当 过 了 若干 年 以 后 ， 原 先 考虑 的 因素 都 已 经 因为 技术 的 进展 
而 不 复 作 在 的 时 候 ， 一 大 批 以 此 为 基础 的 软件 却 已 经 在 奢 里 运行 ， 以 后 开发 的 软件 只 好 继续 采用 7 位 
编码 以 维持 兼容 ， 从 而 形成 了 本 不 应 存在 的 壁垒 。 更 有 甚 者 ， 在 有 些 特 殊 应 用 中 甚至 还 从 95 个 打印 字 
符 中 “克扣 ”了 一 些 字 符 用 作 控 制 日 的 ， 使 可 以 “透明 ”传输 的 字符 个 数 进 一 步 减 少 。 建 立 在 64 个 可 
以 “透明 ”传递 的 可 打印 字符 基础 上 的 电子 邮件 编码 方案 Base64， 就 是 -个 典型 的 例 了。 

在 ASCI 成 为 事实 上 的 国际 标准 以 后 ， 国 际 标准 化 组 织 ISO 通过 其 TSO646 加 以 确认 ， 使 其 成 为 
正式 的 国际 标准 “参考 版 ”之 .。 同 时 ， 义 从 中 提出 车 十 如 [、]、{、}、\ 和 | 等 符号 的 代码 ， 让 字母 
PRE FH 26 个 的 语言 可 以 用 这 些 符号 的 代码 来 表示 - 些 在 英语 中 不 存在 的 字母 ， 如 ge 等 等 。 但 是 , 屠 
已 经 是 80 年 代 前 期 的 事 了 ， 那 时 7 位 的 传输 技术 实际 上 早已 过 时 。 正 因为 这 样 ，1SO 从 80 年 代 中 其 
开始 陆续 推出 了 另 ” 个 标准 ISO8859， 这 个 标准 采用 8 位 传输 。ISO8859 分 成 10 个 部 分 ， 为 世界 上 存 
在 的 几乎 所 有 拼音 文字 如 何 进行 8 位 编码 都 作 了 规定 。 例 如 其 第 6 部 分 ， 即 ISO8859-6 是 阿拉 伯 文 字 
Sai, 557 部 分 是 希腊 文字 的 编码 ， 第 8 部 分 是 希 伯 来 文字 的 编码 。 对 于 拼音 文字 米 说 ，8 位 的 编码 
容量 都 已 经 够 用 了 。 

但 是 ，ISO8859 并 没有 解决 一 体 化 的 问题 ， 同 一 个 8 位 代码 对 于 不 同 的 语言 文字 就 代表 着 不 同 的 
字 考 ， 在 混合 使 用 多 种 文字 的 上 下 文中 要 加 以 切换 。 另 一 方面 ， 新 标准 的 制订 和 采用 并 木 意味 着 旧 的 
标准 就 退出 了 舞台 。 大 量 基于 上 H 标 准 的 软件 已 经 在 使 用 中 ， 当 要 开发 新 产品 的 时 候 ， 虽 然 明知 道 新 的 
标准 已 经 发 布 ， 但 为 了 不 至 失去 一 大 块 市 场 ， 只 好 从 最 斥 、 最 严 苛 的 条 件 作为 出 发 点 ， 即 继续 采用 7 
位 编码 ， 或 至 少 要 提供 用 户 “个 可 选项 ， 让 用 户 根据 具体 情况 来 设置 到 底 是 采用 7 位 编码 还 是 8 rf 
[M 

这 几 个 标准 都 只 考虑 了 拼音 文字 ， 所 以 都 采用 了 单字 节 编码 。 与 此 相 平行 ， 一 些 采 用 非 拼音 文字 
的 国家 和 地 区 也 已 开始 为 适合 其 语言 文字 的 编码 制订 国家 标准 或 行业 标准 。 其 中 最 早 的 是 日 本 ,在 1978 
年 初 发 布 了 JIS C 6626 标准 ， 这 个 标准 中 的 汉字 部 分 后 来 成 为 台湾 地 区 制订 “大 五 ”编码 的 借鉴 。 中 
国 在 这 方面 的 工作 也 开展 得 很 时 ，1980 年 就 发 布 了 国标 GB2312。 当 然 ， 这 些 标 谁 都 采用 了 多 字 节 纺 
码 ， 大 多 是 双 字 节 编 码 。 

1SO2022 是 第 一 个 支持 多 字 节 编 但 ， 即 非 拼 音 文字 的 国际 标准 ， 发 布 于 90 年 代 前 期 。 事 实 [-， 这 
义 只 不 过 是 对 有 关 国 家 和 地 区 人 在 这 方面 的 实践 的 事后 追认 和 兼 容 并 包 而 已 。 ML, ISO2022-CN 与 中 国 
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的 GB2312 很 接近 ，ISO2022-JP 与 日 本 的 JIS C 6626 很 接近 ， 而 ISO2022-KR 则 与 韩国 的 标准 很 接近 。 
1802022 保留 对 英文 字母 的 单字 节 ASCII AS, MMEM CJK《〈 中 / 口 / 韩 ) 文字 时 就 转 入 双 字 节 编 码 ， 两 
个 字 节 都 采用 7 位 ， 取 值 范围 为 0x21 一 0x7E， 即 “可 打印 字符 ”的 范围 。 为 了 保 让 在 不 同 字符 集 之 间 
正确 切换 ，ISO2022 定义 了 4E “Escape 序列 ”， 称 为 “标示 序列 ” (designator sequence) . 8843 
上 的 ESC 键 相对 应 的 代码 为 0xlb， 这 并 不 属于 可 打印 学 符 的 范围 ， 在 传输 中 平时 不 会 用 到 ， 所 以 在 计 
算 机 技术 中 与 终端 或 传输 线 打交道 时 常常 用 ESC 的 代码 作为 控制 手段 ， 与 其 他 字符 组 合成 Esccape 序 
列 。 此 外 ， 还 要 保证 在 单字 入 模式 与 双 宁 节 模 式 之 间 正 确切 换 ，ISO2022 为 此 定义 了 两 个 控制 字符 。 

一 个 是 0x0e， 称 为 “SO” (Shift Out) ,表示 转 出 (常规 的 〉 单 宁 节 模式 ， 男 一 个 是 0x0f， 称 为 “SI” 
(Shift In)， 表 示 转 入 单字 节 模 式 。 这 样 ， 当 行文 至 需要 使 用 非 拼音 义 字 时 ， 就 先 通过 SO BEAM THE 
式 ,再 通过 Escape 序列 选择 具体 的 字符 集 ,例如 当日 慰 为 GB2312 Ef, 其 序列 为 "0xlb, 0x24, 0x29, 0x41” 
或 “<ESC>$)A”。 然 后 ， 当 上 鉴 转 回 单字 节 模 式 时 ， 就 在 字符 串 中 :一 个 英文 字母 之 前 插入 一 个 SI 代 
码 即 可 。 

这 种 技术 的 好 处 是 效 率 比较 高 ， 从 传输 的 季度 看 浪费 很 少 ， 但 是 从 信息 处 理 的 角 虚 看 却 有 缺点 ， 
因为 它 是 面向 过 程 的， 要 知道 对 某 一 个 具体 的 字 节 应 作 何 种 解释 取决 于 这 个 字 节 在 传输 寺 处 十 何 种 模 
式 ， 所 以 对 于 字符 申 ( 其 至 整个 文件 ) 中 的 内 容 只 能 顺序 访问 而 不 能 随机 访问 ， 因 为 对 每 个 字 节 的 解 
读 都 是 与 上 下 文 有 关 的 。 

另 一 方 而 ,在 柴 些 特殊 的 应 用 中 ,特别 是 电子 邮件 的 传递 中 ， 这 套 技术 还 是 有 问题 。 前 面 提 到 过 ， 
电子 邮件 的 传递 只 保证 64 个 可 打印 宁 符 的 透明 传输 ， 而 OxOe. OxOf 和 0xlb 显然 不 属于 这 个 范围 。 对 
此 ， 有 . -个 中 国 留美 学 者 提出 了 采用 另 一 种 序列 来 实现 ASCII 码 与 GB2312 人 码 之 间 的 切换 ， 称 为 HZ 
编码 (RFC 1834) 。 当 要 从 单字 节 的 ASCIL 码 切 换 到 双 字 节 的 GB2312 FEAT, SEE “o~” , IBIS) 
ASCLL 码 时 则 插入 “一 }”。 这 些 字符 老 属 寺 串 打印 字符 。 而 “一 }”” 也 不 对 应 于 任何 汉字 的 编 铭 ， 亚 
然 ， 这 里 的 关键 是 赋 子 字符 “一 ”以 特殊 的 解释 ， 所 以 当 在 单字 星 异 式 下 真 要 使 用 这 个 字符 时 ， 就 要 
在 它 前 面 再 添 一 个 “一 ”字符 。 读 者 肯 完 会 想到 ， 这 与 C 诸 言 中 “\” 字 符 的 使 用 在 精神 上 是 一 致 的 。 

HA, Linux 的 内 核 吓 否 支 持 ISO2022 (ATI GB2312) We? 前 面 讲 过 ， 这 要 分 两 种 情况 来 考虑 。 
第 一 种 情况 是 如 果 采 几 带 有 智能 的 终端 设备 , 即 支持 GB2312 的 汉字 终端 , 此 时 只 要 内 核 不 排斥 GB2312 
的 编码 就 行 了 。 第 .种 情况 是 当 内 核 震 要 介入 汉字 的 输入 和 显示 ， 那 又 是 娘 个 问题 了 。 

先 看 第 一 种 情况 ，Linux 的 内 核 是 否 排斥 1802022 E? 这 是 个 字符 串 处 埋 的 问题 ， 主 要 关系 到 字 
符 串 的 界定 、 比 对 ， 以 及 一 些 特 铁 字符 的 使 用 。 内 核 中 字符 串 都 是 以 “W” 结 尾 的 ， 所 以 如 果 企 双 字 
节 编 码 中 有 某 个 汉字 的 代 僻 包含 了 一 个 0 字 节 ， 那 就 会 被 内 核 误 认 为 是 字符 串 的 结尾 。 中 是 ,1SO2022 
中 两 个 字 节 取 值 的 范围 都 是 0x21~-0x7e， 因 而 不 会 出 现 这 样 的 情况 。 同 理 ， 在 汉字 编码 中 也 不 会 出 现 
AC D, CZ 以 及 “ 退 格 ”这 些 控制 字符 ， 也 不 会 有 Oxf (EOF 定义 为 一 1) 。 再 看 了 符 串 的 比 
Xi. ARP EASIER EEL RARER. FARMS IER TIRAS TB. "uA 
字符 SUSO 作为 每 个 节点 名 字符 申 的 一 部 分 ， 对 于 像 Linux. 这 样 对 文件 名 长 度 并 无 过 分 限制 的 操作 系 
统 来 说 ， 门 题 似乎 也 不 大 。 可 是 ， 对 另 一 个 特 蛛 字符 的 解释 就 成 问题 了 ， 这 个 字符 是 “/”。 例 如 ， 假 
定 有 这 样 一 个 路 径 名 : “asr/students/classes/ 化 下 98”， 这 就 造成 问题 了 。 这 是 因为 汉字 “化 ”的 编码 
中 含有 0x2f， 也 就 是 “/”。 读 者 在 文件 系统 章 中 阅读 过 path. walk ) 的 代码 ， 在 闭 里 这 个 字符 一 定 会 
被 当 作 节点 名 的 分 隔 符 而 表示 男 一 个 层次 。 这 样 的 汉字 当然 有 很 多 。 所 以 ， 结 论 是 ， 只 要 不 使 用 汉子 
作为 文件 名 或 目录 名 ，Linux 内 核 便 不 排斥 汉字 的 使 用 。 四 样 的 结论 也 适用 村 Unix. MT 80 年 代 准 备 
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要 带 上 几 十 个 汉字 终端 的 Unix 系统 来 说 ， 这 个 结论 已 经 是 足够 邻 人 满意 的 了 。 

个 管 是 多 么 权威 的 标准 ， 只 要 是 束缚 了 人 们 的 手脚 ， 一 旦 客观 的 、 物 理 的 限制 因素 〈 如 硬件 的 可 
靠 性 等 ) 消除 以 后 就 一 定 会 被 冲 做 。 但 是 ， 症 破 已 经 被 广泛 接受 的 标准 往往 要 付出 不 小 的 代价 ， 这 就 
是 新 产品 的 部 分 市 场 或 适用 范围 。 可 要 是 这 市 场 本 来 就 不 存在 呢 ? 那 自然 又 作 别论 。80 年 代 正 是 Unix 
气势 如 虹 ， 从 传统 的 小 型 机 、 中 型 机 乃至 大 型 机 的 手中 攻 城 掠 地 的 时 候 。 当 时 ， 硬 件 CRS232 接口 ) 
方面 对 采用 7 位 通信 方式 的 限制 已 经 不 存在 ， 册 Unix 机 通信 的 对 象 一 般 也 都 是 Unix 机 ， 不 存在 已 经 
有 大 量 旧 软件 在 运行 而 必须 保持 兼容 的 问题 。 在 这 样 的 情况 下 ， 标 准 就 失去 了 权威 。 为 了 将 Unix 推行 
到 采用 非 拼音 文字 的 国家 和 地 区 ， 采 用 了 一 种 称 为 EUC (扩充 Unix 编码 ) 的 8 位 多 样 编码 方法 。 BUC 
也 像 ISO2022 一 样 混合 使 用 单字 节 和 多 字 节 ( WERF) 编码 。 单 字 节 编码 也 是 7 位 的 ASCH AG, 
也 就 是 说 每 个 字 节 的 最 高 位 永远 是 0; 但 是 多 字 节 编码 则 采用 8 位 , 把 其 中 某 几 个 字 节 的 最 高 位 设置 成 
1, 因而 不 使 用 换 码 控制 字符 就 可 以 达到 在 单字 节 和 多 字 节 两 种 模式 之 间 的 切换 。( 但 是 也 有 例外 , EUC 
实际 上 允许 在 4 种 编码 〈 即 文字 ) 之 间 进 行 切换 ， 其 中 ASCI 为 编码 0。 从 ASCH 切换 到 编码 1 可 以 
通过 将 最 高 位 设 成 1 来 实现 ， 而 若 要 切换 到 编码 2 则 要 插入 一 个 控制 字符 0x8e， 切 换 到 编 公 3 DES 
入 一 个 0x8f。 不 过 在 GB2312 和 GBK 中 都 不 考虑 编 妈 2 和 编码 3。) 

因 晶 标语 言 或 地 区 的 不 同 ，EUC 编码 又 分 成 EUC-CN 中国) 、EUC-JP (日 本 ) 和 EUC-KR (GE 
fl) 、EUC-TW (中 国 台湾 ) 4 种 。 我 们 在 这 里 只 关心 EUC-CN， 它 的 基 侧 仍旧 是 GB2312， 所 以 又 常 
BARN “8 位 国标 ”或 于 脆 就 称 为 “国标 ”。 它 采用 单字 节 和 双 字 节 混合 编码 。 单 字 节 编 个 与 ASCI 
相同 ， 字 节 的 最 高 位 永远 为 0， 侧 表示 汉字 的 双 字 节 编码 则 两 个 字 节 的 最 高 位 均 为 1。 具体 地 说 ， 两 个 
池 节 的 取 值 范围 都 是 0xal 一 0xfe (不 包括 Oxff) 。 那 么 ，Unix 的 内 核 会 不 会 排斥 这 些 编码 呢 ? 显然 不 
会 , 内 为 代表 着 汉字 编码 的 每 个 字 节 的 最 高 位 都 是 1。 而 且 这 意味 着 甚至 可 以 用 汉字 作为 文件 名 或 月 录 
名 了 。 以 前 而 讲 过 的 “化 ” 字 为 例 ， 它 的 第 二 个 字 节 在 7 位 编码 中 为 0x2f， 所 以 与 “/” 冲 突 ， 而 现在 
则 改 成 0xaf T. 

中 国 后 米 又 公布 了 对 国标 的 扩充 GBK， 也 是 采用 8 位 编码 ， 但 是 把 第 一 个 字 节 的 取 值 范围 扩充 成 
Ox81--Oxfe; 把 第 二 个 学 节 的 取 值 范围 扩充 成 0x40~0x7e 和 0x80~-0xfe。 显 然 这 是 为 了 容纳 更 多 的 汉 
Fo HR GBK 编码 中 的 第 - :个 字 节 有 可 能 最 高 位 为 0， 但 不 会 造成 什么 问题 ， 因 为 在 0x40~Ox7e 这 
个 区 间 并 没有 什么 “敏感 字符 ”。 

EUC-CN 和 GBK 比 ISO-2022 显然 有 改进 ， 但 还 是 有 有 缺点。 首先， 汉字 编 色 的 两 个 字 节 最 高 位 均 
为 1《 或 均 有 可 能 为 1) ， 使 得 在 传输 时 容易 因 谋 码 而 使 相 邻 字 节 的 结合 发 生 错 位 的 情况 。 在 这 两 种 纺 
码 中 ， 对 每 个 具体 字 委 的 解释 仍 不 是 与 上 下 文 无 关 的 (不 过 比 1802022 采用 换 码 控制 字符 的 编码 要 好 
多 了 ) ， 所 以 还 是 不 能 支持 对 字符 串 内 容 的 随机 访问 。 其 次 ，EUC 的 容量 毕竟 还 是 有 限 ， 没 想 如 果 在 
同一 个 文件 中 既 要 使 用 英文 ， 又 要 使 用 中 文 、 蒙 占 义 、 韩 文 ， 太 要 使 用 希 伯 来 文 ， 那 义 该 怎么 办 昵 ? 

土 面 提 到 的 这 些 标准 都 没有 考虑 〈 更 谈 不 上 解决 ) 世界 文字 编码 一 体 化 的 问题 。 这 些 编码 中 没有 
一 种 是 能 够 覆盖 全 此 界 所 有 常用 文字 的 。 侧 在 受到 覆盖 的 各 国文 字 中 ， 则 又 常常 重复 使 用 相同 的 代码 ， 
例如 代码 0x5B 在 ASCI 中 表示 “[”， 而 在 丹麦 文字 中 却 表 示 “ 硅 ”， 此 谓 “ 一 码 多 字 ”。 另 -方面 ， 
有 些 文字 却 义 以 不 同 的 代码 重复 地 吊 现 丁 不 同 的 编 妈 中 ， 特 别 是 中 文 、 日 文 、 玮 文中 都 使 用 汉学 ,但 
古 间 一 个 汉字 在 这 三 种 文字 编码 中 的 代码 却 又 往往 不 同 ， 从 而 造成 “一 字 多 码 ”。 还 有 ， 单 字 节 与 多 
学 节 之 间 的 切换 ， 励 论 用 或 不 用 换个 控制 字符 ， 都 在 一 定 程度 上 使 对 字符 串 中 具体 字 节 的 解释 依赖 于 
上 下 广 ， 从 而 使 得 对 字符 串 内 容 的 随机 访问 要 得 困难 或 甚至 不 可 能 ， 这 同时 也 使 得 字符 中 在 传输 过 程 
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小 的 抗 十 扰 能 力 变 差 。 肯 说 ， 有 些 人 可 能 还 觉得 以 单字 节 代 表 英 语 编 伺 ， 册 以 多 字 节 代表 其 他 各 种 文 
字 的 编码 实际 上. 是 把 英 诸 置 于 一 种 中 心地 位 ， 因 而 有 失 公 平 。 

有 这 么 多 的 缺点 存在 ， 人 们 寻求 世界 义 字 编码 一 体 化 的 努力 就 之 不 厨 翌 了 ， 而 Unicode 正 是 这 样 
一 种 一 体 化 的 编码 方案 , 这 是 由 一 个 行业 协会 性 质 的 组 织 “Unicode Consortium” 发 展 起 来 的 行业 标准 。 
提 到 Unicode 就 不 能 不 提出 另 一 个 国际 标准 ISO-10646, 因为 这 二 者 的 形成 和 发 展 是 紧密 结合 在 一 起 的 。 
最 初 ， 在 80 年 代 前 期 ，JSO 组 成 了 -个 工作 弓 WGZ 从 事 一 体 化 编码 方案 的 制订 ， 并 提出 了 一 个 框架 
性 的 方案 。 通 常 ， 国 际 标准 从 制订 到 批准 、 采 纳 是 需要 相当 长 的 时 间 的 。 女 “方面 ， 作 为 国际 标准 ， 
其 视野 自然 更 为 宽阔 ， 其 结构 也 常常 更 为 严谨 ， 很 多 问题 邦 不 是 -下 了 就 能 定 得 下 来 的 。 可 是 ， 汉 时 
的 上 业界 却 觉得 形势 逼 人 ， 不 能 再 等 ， 于 是 就 组 成 了 Unicode Consortium, 在 ISO 工作 弓 框 染 的 基础 上 
以 一 种 比较 实用 的 态度 制订 行业 标准 Unicode. Jio, ISO 的 框架 性 方案 经 过 多 年 的 发 展 成 为 国际 标准 
ISO 10646-1， 即 ISO 10646 的 第 一 版 。 目 前 有 ISO 10646-1:1993 和 ISO10646-1:2000 两 个 文本 ， 分 别 发 
表 于 1993 年 和 2000 ££. 与 此 相 平行 ，Unicode Consortium 在 1990 ERE T Unicode 1.0 版 ， 以 后 又 
分 别 在 1996 年 和 1999 年 发 表 了 2.0 版 和 3.0 We TIT, ISO 和 Unicode Consortium 在 这 方面 的 工作 既 
互相 平行 ， 义 密切 结合 ， 并 且 互 相 靠 拢 互相 融合 。1990 年 Unicode Consortium 发 表 了 Unicode 1.0 版 以 
后 ，1991 年 双方 就 进行 了 “次 融合 ， 从 而 产生 了 1993 年 的 ISO10646-1 XÆ. if) Unicode Consortium 
又 在 此 基础 上 发 表 了 Unicode 的 1.1 版 , 然后 又 进一步 向 ISO 10646 靠拢 而 在 1996 年 发 表 了 2.0 hk. 所 
以 ， 这 二 者 之 闻 的 关系 是 一 种 五 相 靠 拢 、 互 相 补 充 、 工 相 融 合 的 良性 互动 关系 。 

WA, Unicode 到 底 是 什么 样 的 呢 ?” 这 :者 到 底 有 些 什么 异同 呢 ? 我 们 在 这 申 只 是 结合 阅读 Linux 
内 核 代 码 的 需要 作 -简略 的 介绍 ， 欲 知 详情 的 读者 可 以 参考 有 关 专 著 和 和 文本。 在 这 方面 ， 有 商 本 书 是 
值得 推荐 的 ; -本 是 Ken Lunde 的 CJKV Information Processing; 另 一 本 是 Tony Graham 的 Unicode:A 
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首先 ，ISO10646 和 Unicode 都 意 人 在 将 全 世界 所 有 的 文字 部 包罗 在 同一 个 编码 方案 中 ， 只 是 ISO 在 
这 方面 更 加 追求 完美 ， 人 而 Unicode 则 采取 相对 谭 言 比较 实用 的 态度 。 其 次 ， 二 省 部 采用 固定 长 度 的 字 
符 编码 。 这 样 就 撑 脱 了 在 单字 节 代码 和 多 字 节 代码 之 间 来 回转 换 的 问题 ， 从 而 使 得 对 字符 中 内 容 的 随 
机 访问 成 为 可 能 。 但 是 ， 因 为 ISO 的 “胃口 ”更 大 ， 所 以 ISO10646 标准 选择 采用 4 Baby UCS-4: 
而 Unicode 标准 则 采用 更 为 紧凑 的 2 字 节 编码 UCS-2. DASE Bl a" HØ, 在 ASCII 编码 中 其 代码 为 0x61， 
而 在 Unicode 中 为 0x0061， 在 18010646 中 则 为 0x00000061。 显 然 ， 固 定 长度 编 码 在 许多 情况 下 增加 
了 对 存储 量 以 及 传输 带宽 的 皮 求 (或 者 说 “浪费 ”了 一 些 存储 空间 种 带宽》 ， 不 像 以 前 可 变 长 度 编码 
烤 么 紧凑 。 但 是 ， 在 计算 机 系统 的 存储 空间 日 益 加 大 ， 成 本 口 益 下 降 ， 通 信和 能 力 日 益 JUR. 
这 一 点 已 经 是 无 关 紧 此 的 了 。 与 取得 的 好 处 相 比 ， 这 个 代价 是 值得 化 的 。 如 果 说 以 前 的 单字 e 
节 混 合 编 码 的 方案 与 ISO10646 的 编码 方案 是 两 个 极端 的 话 ， 混 么 Unicode 就 是 二 者 间 的 折衷 。 男 一 方 
面 ， 虽然 Unicode 的 2 字 节 编码 容量 还 是 太 小 〈 例 如， 还 不 能 把 古 埃及 的 文字 包罗 进去 ， 更 不 能 把 中 
国 的 甲骨 文字 包罗 进去 ) ， 但 毕竟 已 经 可 以 敌 盖 全 世界 正在 积极 使 用 中 的 所 有 文字 和 符号 。 所 以 ISO 
和 Unicode Consortium 才 在 1991 年 对 两 个 标准 进行 了 了 融合。 一方 硬 ISO 接受 2 字 节 编码 的 UCS-2 为 
ISO10646 (I-A FEE, ROW “HEA BIB SF IAI” BMP (Basic Multilingual Plane) , JERAT Unicode 
由 的 具体 代码 。 另 -方面 ，Unicode Consortium 也 认识 到 2 Bas A ee SIS, DTE 2 ET 
编码 空间 中 割 下 ER COxD800~-OxDFFF) 称 为 “ ARHI” (surrogate), 4 2 字 节 编码 个 够 用 时 焉 中 以 
采用 两 个 “代用 码 ”， 即 以 4 个 字 节 来 表示 0x10000-—0x10ffff 区 间 的 代码 。 那 么 ， “代用 码 ” 的 采用 
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会 不 会 又 破坏 了 对 字符 串 内 容 的 随机 访问 昵 ? 不 会 ， 因 为 当 采 用 “代用 码 ” 时 位 于 高 位 的 两 个 字 季 一 
EE OxD800~OxDFFF 范围 内 ， 而 低位 的 两 个 字 节 一 定 在 OxDCOO~OxDFFF 范围 内 ， 这 两 块 代码 在 
正常 的 UCS-2 编码 中 是 保留 不 用 的 。 由 两 个 2 字 节 代用 码 所 表达 的 代码 数值 按 以 下 公式 计算 ， 

N = 0x10000 + (H —0xd800) X 0x400 + (L—Oxdc00) 
这 里 的 H 为 高 位 代用 码 , 其 取 值 范围 为 0xd800 一 0xdbff; L 为 低位 代用 码 , 其 取 值 范围 为 0xdc00~ 
Oxdfff。 . 
这 么 一 来 ,与 原先 设想 的 UCS-2 编 色 就 有 所 不 同 了 ,所 以 ISO 进一步 将 这 种 编码 方案 称 为 UTF-16， 
意 为 过 渡 性 的 16 位 编码 格式 。 而 前 述 的 BMP， 也 就 是 Unicode， 实 际 上 对 应 于 UTEF-16， 而 小 是 原先 
的 UCS-2。 
最 后 ， 尤 论 是 ISO10646 或 Unicode， 都 排除 了 “一 字 多 人 码 ” 的 情况 ， 从 而 实现 了 字符 (符号 ) 与 
代码 间 的 一 一 对 应 。 目 前 ，Unicode 包罗 了 49194 个 字符 和 符号 的 代 公 ， 其 中 汉字 为 27786 个 ， 这 些 汉 
字 是 将 中 文 、 日 文 和 韩文 中 使 用 的 汉字 加 以 整合 而 成 的 。 通 过 “代用 码 ” 的 使 用 ， 还 可 以 将 这 个 容量 
扩大 16 倍 。 | 
可 想 而 知 ， 从 以 单字 节 为 主 ， 以 ASCI 码 为 基础 的 字符 串 处 理 到 一 律 采用 双 字 节 的 Unicode 字符 
串 处 理 ， 这 是 一 个 重大 的 转变 ， 而 如 果 还 此 考虑 兼容 性 的 话 ， 那 就 更 是 个 挑战 。 不 说 别 的 ， 就 拿 字符 
^a" [f] Unicode 代码 0x0061 来 说 吧 ， 这 时 面 就 有 一 个 字 节 是 0， 而 传统 的 字符 串 就 是 以 ORM, 
其 他 如 0x03(AC)、0x04(^AD)、0xlb(ESC)、0x2fC7) 等 等 字 节 也 是 随时 都 有 可 能 碰 到 ， 简 直 是 “ 防 不 胜 
防 ”。( 如 果 可 以 抛 开 原 来 的 单 学 节 字 符 串 处 理 不 管 , 而 在 gcc 中 将 数据 类 型 char 改 成 与 unsigned short 
等 价 ， 那 么 许多 现 有 的 软件 只 要 重新 编 释 一 下 就 可 以 支持 Unicode I  OHisb4m. AF E REA 0x0000 
而 不 是 0x00 结尾 的 了 》 。 事 实 上 ，java 语言 止 是 这 样 做 的 ， 在 java 语言 中 char 是 16 位 的 而 不 是 8 位 
f]. 可 是 那样 一 米 许多 软件 (包括 Linux AR) 中 些 数 据 结构 的 大 小 就 变 掉 了 ,所 以 问题 并 不 简单 。) 
所 以 ， 指 望 在 一 个 短 时 期 内 完成 这 种 转 灾 显然 吓 不 现实 的 。 有 鉴于 此 ，Unicode Consortium &I ISO 
从 一 开始 就 提供 了 过 渡 性 的 方案 。 第 一 个 过 渡 性 方案 称 为 UTF-8， 是 从 8 位 到 16 位 ( 即 双 字 节 ) 的 过 滤 
Ji: 第 二 个 称 为 UTF-16， 实 际 上 就 是 Unicode， 是 从 16 位 到 32 位 ( 即 4 字 节 ) 的 过 渡 方 案 。 
当然 ， 我 们 在 这 里 关心 的 只 是 UET-8， 这 是 一 种 什么 样 的 编码 方案 呢 ? MM SZ, Wee i 
SSF VHA. eS EH: 怎么 绕 了 半天 义 回 到 单字 节 与 多 字 节 杠 结 合 了 ?我 们 坝 在 的 
ISO2022、GB2312、GBK 等 等 不 正 是 单字 节 与 多 字 节 相 结合 鸣 ? 是 的 ， 虽 然 从 诛 理 上 讲 都 是 单字 节 与 
多 字 节 相 结合 ， 但 是 具体 的 编码 方法 不 同 。UTEF-8 的 编码 规则 为 ; 
€ 7 位 ASCII 码 保持 原状 不 变 。 也 就 是 数值 在 0x00 —0x7F 范围 内 的 Unicode 代码 在 UTF-8 中 为 
单字 入 ， 并 是 最 高 位 为 0。 

e 不 能 用 7 位 表示 ,但 起 可 以 用 11 位 表示 ， 也 就 是 数值 在 0x80—0x7FF UIA 83 Unicode HE 
在 UTF-8 HARF. B 个 宁 节 的 最 高 二 位 为 110， 然 后 是 这 11 位 中 的 高 5 位， 第 二 个 字 
节 的 最 高 两 位 为 0， 然后 是 11 位 中 的 低 6 位 。 

e 不 能 用 11 位 表示 ， 但 可 以 用 16 位 表示 的 数值 ， 即 数值 在 0x800—0xFFFF 范围 内 的 Unicode 
代码 在 UTF-8 中 为 三 字 季 。 第 一 个 字 节 的 最 高 四 位 为 1110， 然 后 是 16 位 中 的 最 高 4 fr. 第 
一 个 字 节 的 最 高 二 位 为 10， 然 后 是 16 位 中 的 中 间 6 位 ;第 于 个 字 节 的 最 高 两 位 也 是 10， 然 
后 是 16 位 中 的 最 小 6 位 。 

e ”对 于 超出 16 位 , 但 是 可 以 用 21 位 表示 的 数值 , 即 数值 在 0x10000~0x1 FFFFF 范围 内 的 代码 ， 
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在 Unicode 中 要 用 两 个 “代用 码 ” (surrogate) 来 表示 ， 而 在 UTF-8 中 则 为 四 字 节 编码 。 第 
一 个 字 节 的 最 高 $ 位 为 11110， 然 后 是 这 21 位 中 的 最 高 三 位 ; 第 、 三 、 四 个 学 节 的 最 高 两 
位 都 是 10， 然 后 各 载 有 21 位 中 的 6 位 。 

所 以 ， 一 个 字 节 的 最 高 位 为 0 表示 这 是 单字 节 的 ASCH, RAMA 1 表示 这 是 多 字 节 代码 中 的 
一 个 字 节 ， 而 该 代码 中 的 第 一 个 字 节 的 最 高 岗位 均 为 1， 并 上 且 连续 有 几 位 为 1 就 表示 该 代码 中 有 儿 个 
字 节 。 代 人 码 中 其 余 字 节 的 最 高 两 位 均 为 10。 

这 样 的 编码 方法 有 什么 好 处 呢 ? 让 我 们 来 看 看 UTF-8 编码 的 性 质 ; 

0) 与 ASCII ERA, 但 是 在 这 方面 UTF-8 并 没有 什么 特别 的 优势 ， 因为 其 他 各 种 编码 也 都 是 与 

ASCII 兼容 的 。 

(2) ”不 使 用 换 码 控制 字符 ， 多 字 节 代码 中 每 个 字 节 的 最 高 位 都 是 1， 并 划 每 个 多 字 节 代码 中 的 第 
一 个 字 节 很 容易 与 其 余 的 字 节 相 区 别 ， 因 而 不 存在 “配对 ”是 否 正 确 的 问题 。UTF-8 Jia 
这 个 性 质 使 对 字符 串 内 容 的 随机 访问 成 为 可 能 。 当 从 一 个 字符 串 中 随机 选取 一 个 字 时 ， 如 果 
该 字 节 的 最 高 位 为 0， 则 为 单字 节 的 ASCII 码 ; 如 果 最 高 两 位 均 为 1 则 为 多 字 节 代码 中 的 第 
一 个 字 节 ， 和 否则 往 回 扫描 最 多 三 个 字 节 必 本 发 现代 码 中 的 第 一 个 字 节 。 

(3) ” 抗 干扰 能 力 强 ， 假 定 传输 过 程 中 某 个 字 节 的 最 高 位 从 0 变 成 了 1 或 从 1 变 成 了 0， 则 受到 损 
坏 的 最 多 只 是 这 个 字 节 本 身 所 在 的 代码 加 上 与 它 相 邻 的 代码 。 而 不 会 像 在 其 他 编码 方案 中 那 
样 引 起 成 片 的 损坏 例如， 因 换 码 字 符 损坏 以 及 因 “ 配 对 ”错位 所 造成 的 损坏 》。 

(4) 155 Unicode 一 样 ， 是 一 体 化 的 编码 。 

(5 ”凡是 能 接受 8 位 码 的 软件 就 不 会 排 矿 UTF-8 编码 , 因为 在 它 的 多 字 节 代码 中 不 含 任何 特殊 字 
^F Cl 0x00、0x03、0xlb、0x2f 等 等 ) 。 或 者 说 ， 所 有 能 接受 8 位 编码 的 软件 都 是 对 UTF-8 
透明 的 。 

HA, Linux 内 核对 Unicode 利 UTF-8 的 接受 程度 如 何 呢 ? 我 们 林 妨 带 着 问题 来 重 温 一 下 
path_walk( ) 的 代码 。 显 然 ，path_walk( ) 的 代码 对 UTF-8 代 妈 是 透明 的 ， 因 为 多 字 节 的 UTF-8 HAS 
有 如 0x00、0x2f 等 等 这 些 特殊 字符 。 所 以 ， 几 是 UTF-8 编码 的 文字 ， 和 包括 汉字 ， 都 可 以 用 在 文件 名 和 
目录 名 中 ， 更 可 以 用 在 文件 内 容 的 任何 字符 串 中 。 可 是 ，path_walk( ) 对 Unicode WEAN, ATLA 
Unicode 不 能 用 在 文件 名 和 目录 名 中 。 在 这 方面 ， 对 Linux 内 核 还 有 工作 要 做 ， 这 也 是 今后 Linux 内 核 
继续 改进 的 方向 之 一 。 那 么 ， 退 而 求 其 次 ， 以 Unicode 作为 文件 内 容 ， 就 像 从 前 的 Unix 系统 带 上 汉字 
终端 那样 ， 是 否 可 以 呢 ? 读者 华 阅 读 了 有 关 的 内 核 代 码 以 后 就 会 看 到 ， 这 是 可 以 的 。 


了 解 了 上 面 这 么 些 背景 材料 以 后 ， 我 们 可 以 回 到 终端 设备 的 驱动 了 。 

如 前 所 述 ， 在 PC 机 上 一 般 总 是 以 显示 器 和 键盘 〈 可 能 还 有 限 标 器 ) 的 组 合作 为 控制 台 的 ， 这 二 者 
的 结合 就 相当 于 一 个 终端 。 但 是 ， 有 些 情 况 下 个 系统 的 控制 从 不 止 UP. ATLA Linux 将 同 CEDE 
的 显示 器 和 键盘 复 败 于 苛 干 “虚拟 控制 从 ”(virtual consde)， 让 用户 通过 “Alt” 键 与 功能 键 “F1” 至 
“Fl2” 的 组 合 来 选择 将 其 个 虚拟 控制 台 作 为 系统 的 当前 控制 台 。 由 于 一 般 键 姐 上 有 12 个 功能 键 ， 所 
以 可 以 有 12 个 瞄 拟 控制 侣 《或 者 虚拟 终端 ) ， 分 别 对 应 着 设备 文件 /devi/ttyl1 至 /dewtty12。 系 统 在 初始 
化 以 后 以 /devittyl 为 当前 控制 台 。 此 外 ，/devitty0 永远 代表 着 系统 的 当前 控制 台 ， 所 以 如 果 用 户 按 了 
Alt+F2 键 ， 则 /dev/tty0 就 等 价 于 /dev/tty2。 在 /dev 目录 中 还 有 一 个 节点 /dev/console， 一 般 都 是 连接 到 
ldevitty0， 所 以 也 代表 着 系统 的 当前 控制 台 。 
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这 样 做 有 什么 好 处 呢 ? -来 系统 的 用 户 可 以 在 不 同 的 虚拟 终端 上 登录 不 过 Linux 只 在 前 而 6 个 
虚拟 终端 上 创建 login 进程 》 并 启动 不 同 的 作业 ， 人 然后 遂 过 Alt 键 和 功能 键 的 组 合 在 这 些 虚 拟 控 制 台 之 
间 切 换 ， 根 据 需 要 使 得 在 某 个 虚拟 终端 上 启动 运行 的 作业 成 为 当前 的 “前 全 作业 ”。 男 … 方 血 ， 系 统 
在 引导 、 初 始 化 以 及 运行 中 要 显示 很 多 信息 ， 如 果 让 这 些 信 息 显 示 在 同一 个 虚拟 终端 上 ， 则 许多 信息 
混在 ”: 起 不 容易 看 清 ， 并 有 旦 很 快 就 被 后 来 的 信和 总 所 覆盖 。 如 果 将 这 些 信息 分 门 别 类 地 显示 在 不 辣 的 虐 
拟 终端 |, 则 用 户 可 以 有 选择 地 阅读 , 这 样 就 方便 多 了 。 作为 字符 设备 的 这 些 虚 拟 终端 的 主 设 备 号 为 4， 
次 设备 号 则 与 “终端 号 ”相对 应 ， 如 /dev/tty0 的 次 设备 号 为 0，/dev/tty1 的 次 设备 号 为 1， 等 等 。 

这 些 设备 文件 实际 上 都 代表 着 一 个 输出 缓冲 区 ， 写 入 这 些 设 备 的 内 容 都 写 在 缓冲 区 中 ， 直 到 选择 
某 个 特定 虚拟 终端 时 才 将 其 缓冲 区 的 内 容 显 示 到 显示 吴 屏 幕 上 。 从 这 些 设备 读 就 不 一 样 了 ， 从 虚拟 终 
端 读 实际 上 是 从 键盘 读 ， 但 是 键盘 只 属于 当前 控制 台 ， 所 以 从 虚拟 终端 的 《同步 ) 恋 操 作 二 要 到 选 
择 了 该 虚拟 终端 作为 当前 控制 台 半 从 键盘 输入 后 才 会 返回 。 

主 设备 号 为 4 的 字符 设备 并 此 件 是 虚拟 终端 ， 还 包括 了 些 通 过 常规 UART 串 行 口 连接 的 实际 的 
终端 设备 。 其 体 讲 ， 除 次 没 备 号 为 0 的 /dev/tty0 代表 着 当前 控制 台 ， 旭 当前 虚拟 终端 外 ， 次 设备 写 1~ 
63 分 别 为 /dev/ttyl 全 devitty63, RRA 63 个 虚拟 终端 (虽然 在 PC 机 键盘 上 只 有 12 个 功能 键 ， 因 而 只 
能 在 前 12 个 虚拟 终端 中 作出 选择 〉; 次 设备 写 64 至 255 则 分 别 为 /devy/ttyS0 B/devittyS191, ENVIAR 
着 192 个 可 能 的 UART HAT, BARA BAT i UL TR. 

此 外 ， 与 /dev/tty0 fü/dev/ttyl 4&/dev/tty63 相对 应 ， 人 在 /dev 日 孙 下 还 有 一些 主 设备 号 为 7、 代 表 虚 拟 
终端 缓冲 区 的 “字符 设备 ”文件 /dev/vcs 和 /dev/vesl 至 /dev/vcs63。 这 些 设 备 文件 与 代表 虚拟 终端 的 设 
备 文件 相对 应 ， 但 是 有 所 不 同 。 从 某 个 虚拟 终端 缓冲 区 《例如 /dev/vcs2) 读 就 是 从 相应 虚拟 终端 的 输 
出 缓冲 区 恋 ， 而 个 是 像 虚拟 终端 本 身 那 样 是 从 键盘 恋 。 二 者 的 写 操 作 也 有 所 不 同 ， 对 虚拟 终端 缓 神 区 
的 写 操作 只 是 简单 的 对 线性 缓冲 区 的 操作 ， 而 并 不 像 虚拟 终端 邦 样 以 缓冲 区 米 模 拟 显 示 器 的 屏幕 。 这 
两 种 设备 的 file_operations 数据 结构 也 不 同 ， -为 vcs_fops， 一 为 tty_fops。 

不 仅 如 此 ， 在 /dev 目录 下 还 有 另外 64 BARES the 7 的 字符 设备 /dev/vcsa 和 /dev/vcsal 至 
/devivesa63， 它 们 的 次 设备 号 为 128 至 191。 这 些 字符 设 备 也 对 应 着 63 个 虚拟 终端 的 绥 冲 区 ， 所 不 同 
的 是 这 些 缓冲 区 是 带 有 字符 “属性 ”的 缓冲 区 , 文件 名 中 的 字母 “a” 就 是 “attribute” 的 意思 。 对 VGA 
EGA 等 图 形 卡 和 BIOS 有 上 所 了 解 的 读者 也 许 知道 ， 当 这 些 图 形 卡 工作 于 字符 模式 时 可 以 让 每 个 字符 带 
[个 表示 属性 的 字 和 车， 以 控制 该 字符 显示 时 的 颇 色 、 完 度 等 属性 。 

读者 也 许 已 经 觉得 这 些 终端 设备 不 简单 了 。 然 而 还 不 止 于 此 ， 在 /dev HR PA ERE SA SH 
字符 设备 。 这 些 设备 统称 为 “替换 ” (alternate) 终端 设备 。 其 中 次 设备 号 64 一 225 分 别 为 /dev/cua0 至 
/dev/cua191, 共 192 个 使 用 串 行 口 的 终端 设备 , 称 为 “callout ”终端 设备 ,与 前 述 的 /dewttyS0 全 /devittyS191 
相对 应 。 那么 这 二 者 又 有 什么 区 别 昵 ”这 红 要 从 终端 设备 与 主机 的 连接 方式 说 起 。 终端 设备 与 主机 R 
切 地 说 是 主机 的 串 行 口 ) 的 连接 方式 大 体 上 有 两 种 ， -种 是 “本 地 ”和 连接 方式 ， 这 就 是 WWE CES 
心 ” 里 把 儿 十 个 乃至 上 百 个 终端 设备 直接 〈( - 般 都 是 通过 RS232C 电缆) 连接 到 主机 |. 各 个 串 行 口 的 
方式 。 在 这 种 连接 方式 里 ， 终 端 设备 与 主机 的 连接 是 静态 的 ， 把 哪 一 个 终端 的 电缆 不 管 有 多 长 ) à 
入 哇 一 个 串 行 口 ， 这 个 终端 在 物理 | 就 静态 地 连接 到 了 这 个 品行 口 。 终 端的 电源 可 以 关闭 ， 但 是 二 首 
物理 上 的 连接 却 半 不 改变 。 另 “种 是 “远程 ”连接 方式 ， 人 在 这 种 方式 里 ， 终 端 设备 与 主机 并 不 直接 相 
连 ， 而 是 各 自 通 过 一 个 modem 经 电话 线 网 络 对 接 ， 所 以 终端 设备 与 主机 的 连接 是 动态 的 ， 不 同 的 终端 
设备 在 不 同 的 时 间 里 可 以 通过 电话 线 网 络 连接 到 主机 的 同 SATO LE. Ril. REMAP ni 
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就 是 由 谁 来 启动 这 种 动态 连接 呢 ? 一 种 办 法 是 让 主机 一 方 启动 ， 称 为 “callout”， 此 时 的 串 行 口 工作 于 

“呼叫 ”(callout ) 模式 , 相应 的 终端 设备 称 为 * 呼 出 型 ”(callout) 终端 设备 , 即 /dev/cua0 至 /dev/cual91.。 
另 一 种 办 法 是 让 终端 一 方 通过 其 modem 拨号 启动 ， 称 为 “dial in”， 此 时 的 串 行 口 起 作 丁 “ 拨 号” 模 
式 ， 相 应 的 终端 设备 称 为 “ 拨 入 型 ”终端 设备 ， 即 /dev/ttyS$0 至 /dewittyS191。 显 然 ， 这 一 者 的 驱动 程序 
是 略 有 不 同 的 。 

除 这 些 设 备 文件 以 外 ， 还 为 一 些 主 要 的 串 行 接口 卡 厂 沿 分 配 了 专 诈 的 主 设备 写 。 例 如 ， 对 于 
Cyclades AJETE, MIRT 19 和 20 PR TT mS. HP 19 用 于 dial in， 设 备 义 件 名 为 
ldevittyC0 至 /dev/ttyC31; 而 20 则 用 于 “callout”， 设 备 文件 名 为 /devicub0 至 /dev/cub31。 像 这 样 的 例 
子 还 有 很 多 ， 在 Linux/Documentation Ax PA--T ICE devices.txt， 列 出 了 所 有 已 经 分 由 的 设备 号 ， 
读者 可 以 参考 。 

E 面 讲 到 的 这 些 终端 设备 都 是 物理 上 存在 的 ， 即 使 是 “虚拟 终端 ”， 最 终 也 要 对 应 到 一 个 物理 的 

MR ONE NU EP ER iki 端 设 备 有 ds te M 个 终 


ty 可 是 实际 上 却 不 是 mmm ^ (ug " nem io " "em B AER Hi tt 
的 ， 就 好 像 是 一 个 管道 的 两 端 。 一 端的 设备 称 为 “ 主 设 备 ” (master) FE RAS A2, WREAK 
/dev/ptyAX， 这 里 的 A 表示 16 个 字母 “pqrstuvwxyzPQRST” 中 的 -个 , X 则 为 16 个 16 进 制 数字 (0 一 


D 之 一 ， 这 样 一 共 可 以 有 256 个 伪 终 端 主 设备 。 另 一 端的 设备 称 为 “从 设备 ” (slave), HERES - 


为 3， 设 备 名 则 为 /dew/ttyAX， 256 个 。 每 一 对 伪 终 端 设备 ， 例 如 /dev/ptyp0 H/devittypO, 4f 
fix 个 管道 连 在 -起 ， 其 “从 设备 ”一 站 与 普通 的 终端 设备 没有 什么 区 别 ， 而 “ 主 设 备 ” 一 端 
WU ER FREE SCE ABA 

MA, AHTAHARHMAAMRS, XA SEG TUN BAO? 让 我 们 考虑 当 个 
Linux (或 Unix) 系统 采用 X Window 一 类 的 图 形 用 户 界 和 (GUI) 时 的 情况 。 在 这 样 的 系统 里 ， 整 个 
显示 屏 以 及 键盘 都 在 一 个 视窗 管理 进程 的 控制 之 下 ， 显 示 上 冬 上 有 若干 个 几 来 模拟 普通 终端 的 窗 启 ， 每 
个 这 样 的 窗口 都 与 一 个 应 用 进程 例如 shell 相 联系 。 (AA EE shell 进程 都 以 为 它 的 标准 输入 利 标准 输出 
(以 及 标准 出 错 信 起 ) 通道 部 道 向 一 个 终端 设备 ， 慨 人 不 知道 也 万 能 力 控 制 显 示 屏 上 的 窗口 。 AR ADP ME? 
这 就 要 使 用 伪 终 端 没 备 了 ， 图 8.7 eh SA. 





视窗 管理 进程 










用 户 空间 


fy 3m ABE 伪 终 端 士 设备 常规 终端 设备 





AL EA ^" [R] 


物理 终端 
( 显 修 屏 + 键 村 + 鼠标 器 ) 


图 8.7 伪 终 端 远 辑 示意 图 
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每 一 对 伪 终 端 设备 连接 着 显示 研 上 的 一 个 窗口 和 … 个 应 用 进程 。 当 视窗 管理 进程 从 键盘 接收 到 一 
个 字符 时 ， 它 先 要 检查 当前 的 “光标 ”位 置 ， 找 出 当前 “活跃 ”的 窗口 和 与 之 对 应 的 伪 终 端 “ 主 设备 ” 
(作为 -个 已 打开 文件 ) ， 然 后 就 把 从 键盘 读 入 的 字符 与 入 到 伪 终 疹 的 “ 主 设 备 ”-- 端 。 也 就 是 说 ， 
对 于 键盘 输入 ， 视 窗 管 理 进程 起 着 中 转 、 搬 运 的 作用 ， 与 入 伪 终 端 “ 证 设备 ”一 端的 字符 蕊 上 就 到 达 
了 其 “从 设备 ”一 端 。 在 滥 里 ， 对 于 与 “从 设备 ” 相 联 系 的 进程 来 说 ， 就 跟从 普通 终端 设备 读 入 字符 
一 模 一 样 了 。 反 过 来 ， 当 “从 设备 ”一 边 的 进程 有 输出 时 ， 它 的 输出 通过 伪 终 端的 “从 设备 ”到 达 “ 主 
设备 ”一 端 ， 然 后 由 视窗 管理 进程 读 取 。 视 窗 管 理 进程 从 某 个 伪 终 端的 “ 主 设备 ”中 接收 到 字符 以 后 ， 
就 要 根据 具体 的 打开 文件 号 找到 显示 屏 上 相应 的 密 口 ， 换 算 成 显示 屏 上 的 人 位置， 再 把 接收 到 的 字符 在 
这 个 位 置 上 显示 出 来 。 与 伪 终 端 “ 从 设备 ” 相 联 系 的 进程 ， 根 本 就 不 知道 它 的 终端 没 备 到 懈 是 “个 物 
理 终端 ， 还 是 实际 上 只 不 过 是 另 一 个 进 种。 另 一 方面 ， 伪 终端 “ 主 设 备 ” 一 侧 的 进程 也 不 一 定 非 得 把 
从 伪 终 端 “ 主 设备 ”接收 到 的 内 容 在 显示 屏 上 的 某 个 窗口 电 显 示 出 来 。 例 如， 在 网 络 环境 下 “从 设备 ” 
一 端的 进程 可 能 仍 是 shell， 出 “ 主 设备 ”一 疝 的 进程 则 可 能 是 telnetd， 它 把 从 伪 终 端 “ 主 设备 ”接收 
到 的 内 容 “ 搬 运 ”a 到 一 个 网 络 插 中 ， 反 之 办 然 ， 这 个 插口 也 许 通过 互 腾 网 连接 到 一 干 公里 以 外 的 另 
一 台 机 器 上 。 | 
TAR, yes ante A RI ES a CETTE SRR EY AP BAN, fBiESps EAE 
同一 个 file operations 数据 结构 ， 即 ty fops. PXE, ERBEN 3. 4. 5 BETWS) 的 字符 设 
备 ， 以 及 与 分 配给 各 家 串 行 口 厂 沿 的 主 设备 号 相对 应 的 字符 设备 ， 企 部 使 用 同一 个 file_operations 数据 
结构 。 这 当然 并 不 意味 着 所 有 这 些 设备 部 使 用 相同 的 驱动 程序 ， 而 是 说 明 : 
(1) 终端 设备 的 驱动 程序 至 少 可 以 分 成 两 个 或 更 多 个 了 层 ， 其 中 最 上 上 层 是 公共 的 ， 所 以 有 相同 的 
PEN 
(2) “不 同类 终端 设备 的 读 / 写 操作 不 同 , B UTTAR H Se sa AE AA P oR RS 
端 显然 不 同 ， 所 以 … 定 还 有 一 个 类 似 于 file operations 那样 的 函数 跳 转 结构 。 
(3) 终端 设备 驱动 穆 序 也 跟 信 息 传输 的 方式 有 关 , 例 如 通过 RS232 电 绕 相连 的 终端 跟 通 过 Modem 
相连 的 终端 肯定 个 一 样 。 所 以 ， 一 定 述 存在 着 为 一 个 与 传输 方式 有 关 的 晴 数 跳 转 结构 。 
事实 正 是 这 样 ， 除 file operations 结构 以 人 外， 每 个 终 闻 设 备 还 跟 男 两 个 数据 结构 相 了 联系， 一 个 是 
tty_driver 数据 结构 ， 定 义 十 include/linux/tty_driver.h: 


120 struct tty driver { 


121 int magic; /* magic number for this structure */ 
122 const char -*driver namo; 

123 const char *name; 

124 int name base; /* offset of printed name */ 

125 short major; /* major device number */ 

126 short minor start; /* start of minor device number*/ 
127 short num; /* number of devices */ 

128 short — type; /* type of tty driver */ 

129 short ^ subtype; /* subtype of tty driver */ 

130 struct termios init termios; /* Initial termios */ 

131 int flags; /* tty driver flags */ 

132 int *refcount; /* for loadable tty drivers */ 
133 struct proc dir entry *proc entry; /* /proc fs entry */ 
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134 struct tty driver *other; /* only used for the PTY driver */ 
135 

136 /* | 

137 * Pointer to the tty data structures 

138 */ 

139 struct tty struct **table; 

140 struct termios **termios; 

141 struct termios **termios locked; 

142 void *driver state; /* only used for the PTY driver */ 
143 

144 /* 

145 * Interface routines from the upper tty layer to the tty 
146 * driver. 

147 */ 

148 int (open) (struct tty struct * tty, struct file * filp); 
149 void (*close) (struct tty struct * tty, struct file * filp); 
150 int (write) (struct tty struct * tty, int from user, 

151 const unsigned char *buf, int count); 

152 void Gkput char) (struct tty struct *tty, unsigned char ch); 
153 void (flush chars) (struct tty struct *tty); 

154 int (*write room) (struct tty struct *tty) ; 

155 int (*chars in buffer) (struct tty struct *tty); 

156 int (*ioctl) (struct tty struct *tty, struct file * file, 
157 unsigned int cmd, unsigned long arg); 

158 void (kset_termios) (struct tty struct *tty, struct termios * old); 
159 void (throttle) (struct tty struct * tty); 

160 void (kunthrottle) (struct tty struct * tty); 

161 void (*stop) (struct tty struct *tty); 

162 void (*start) (struct tty struct *tty); 

163 void (*hangup) (struct tty struct *tty); 

164 void (*break ctl) (struct tty struct *tty, int state); 

165 void (*flush buffer) (struct tty struct *tty); 

166 void (*set ldisc) (struct tty struct *tty); 

167 void (*wait until sent) (struct tty struct *tty, int timeout); 
168 void (*send_xchar) (struct tty struct *tty, char ch); 

169 int (tread proc) (char *page, char **start, off t off, 

170 int count, int *eof, void *data); 

171 int (*write proc) (struct file *file, const char *buffer, 
172 unsigned long count, void *data) ; 

173 

174 /* 

175 * linked list pointers 

176 */ 

177 struct tty_driver *next; 

178 struct tty driver *prev; 

179 }; 


可 见 ， 结 构 中 给 定 了 该 种 终端 设备 的 主 设备 号 以 及 次 设备 号 的 范围 ， 并 提供 了 许多 函数 指针 。 这 
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样 ， 对 于 不 同 种 类 的 终端 设备 就 有 不 同 的 tty. driver 数据 结构 ， 例 如 控制 台 终端 的 wy. driver 数据 结构 


就 是 console_driver。 
男 一 个 是 tty_ldisc 数据 结构 ， 定 义 于 include/linux/tty_ldisc.h P: 


103 struct tty ldisc { 


104 int magic; 

105 char *name; 

106 int num; 

107 int flags; 

108 /* 

109 * The following routines are called from above. 

110 */ 

111 int (*open) (struct tty struct *); 

112 void (kclose) (struct tty struct *); 

113 void (kflush buffer) (struct tty struct *tty); 

114 ssize t (*chars in buffer) (struct tty struct *tty): 

115 ssize t (#read) (struct tty struct * tty, struct file * file, 
116 unsigned char * buf, size t nr); 

117 ssize t (*write) (struct tty struct * tty, struct file * file, 
118 const unsigned char * buf, size t nr); 

119 int (*ioctl) (struct tty struct * tty, struct file * file, 

120 unsigned int cmd, unsigned long arg); 

121 void (*set termios) (struct tty struct *tty, struct termios * old); 
122 unsigned int (*poll) (struct tty struct *, struct file *, 

123 struct poll table struct *); 

124 

125 /* 

126 * The following routines are called from below. 

127 */ 

128 void (*receive buf) (struct tty struct *, const unsigned char ¥cp, 
129 char *fp, int count): 

130 int (*receive_room) (struct tty struct *): 

131 void Ckwrite wakeup) (struct tty struct *); 

132^ j 


结构 名 中 的 “ldisc” 应 为 “Line Discipline” 的 缩写 ， 表 示 “ 链 路 规则 ”的 意思 。 与 file operations 
不 同 的 是 ， 这 个 结构 中 不 但 有 供 上 层 调用 的 函数 指针 如 open. read. write 等 等 ， 述 有 供 下 层 往 上 调用 
的 函数 指针 receive, buf, receive room 以 及 write_wakeup。 此外, 结构 中 还 有 几 个 并 非 函 数 指针 的 字段 。 
内 核 中 有 个 tty_idisc 结构 数组 ， 用 于 各 种 不 同 的 链 路 规则 ， 包 括 实际 上 并 不 使 用 链 路 的 “ 链 路 规则 * ， 
定义 于 drivers/char/tty_io.c: 


119 struct tty_ldisc ldiscs[NR LDISCS]; /* line disc dispatch table */ 


其 大 小 为 NR_LDISCS， 实 际 上 定义 为 16， 系 统 在 初始 化 或 安装 某 种 驱动 模块 时 通过 函数 
tty_register_ldisc( ) 将 有 关 的 tty_Idisc 结构 “登记 ”到 这 个 数组 中 。 
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如 果 把 具体 终端 设备 的 驱动 称 为 “终端 设备 层 ” 的 话 ， 那 么 tty_driver 结构 是 它 与 其 上 层 ， 妈 常规 
的 设备 驱动 层 之 间 的 界面 ， 认 tty_ldisc 结构 则 是 它 与 其 下 层 ， 即 物理 设备 层 之 间 的 界面 。 所 谓 “ 链 路 
规则 ”， 实 际 上 就 是 怎样 驱动 具体 的 物理 接口 。 

下 面 ， 我 们 通过 打开 文件 操作 来 看 根据 终端 的 种 类 转 接 到 具体 tty_ldisc 结构 的 过 程 。 





如 上 所 述 ， 数 据 结 构 tty_fops 是 几乎 所 有 终端 设备 驱动 程序 的 总 枢纽 ， 有 着 特殊 的 重要 性 。 这 个 
数据 结构 是 在 drivers/char/tty_io.c 中 定义 的 : 


407 static struct file operations tty fops = | 


408 ]lseek: tty lseek, 
409 read: tty read, 
410 write: tty write, 
411 poll: tty poll, 
412 ioctl: tty_ioctl, 
413 open: tty_open, 
414 release: tty_release, 
415 fasync: tty fasync, 
46  ]; 


用 于 打开 文件 操作 的 函数 是 tty_open( )， 因 为 比较 长 ， 我 们 分 段 阅 读 (drivers/chartty_io.c)。 


1285 static int tty_open(struct inode * inode, struct file * filp) 
12886 { 


1287 struct tty struct *tty; 

1288 int noctty, retval; 

1289 kdev t device; 

1290 unsigned short saved fiags; 

1291 char buf [64]; 

1292 

1293 saved flags = filp->f flags: 

1294 retry_open: 

1295 noctty = filp->f_flags & O NOCTTY; 
1296 device = inode->i_rdev; 

1297 if (device == TTY DEV) | 

1298 if Ccurrent->tty) 

1299 return -ENXIO; 

1300 device = current->tty—>device; 
1301 filp->f flags |= O_NONBLOCK; /* Don’t let /dev/tty block */ 
1302 /* noctty = 1; */ 

1303 } 

1304 Hifdef CONFIG VT 

1305 if (device == CONSOLE DEV) { 

1306 extern int fg console; 

1307 device = MKDEV(TTY MAJOR, fg console + 1); 
1308 noctty = 1; 

1309 } 
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1310 ttendif | 
1311 if (device == SYSCONS DFV) 1 


1312 struct console *c = console drivers; 
1313 while(c && '!c-»devico) 
1314 c = c—next; 
1815 if (lc) 
1316 return -ENODEY; 
1317 device = c—device(c) ; 
1318 filp-^f flags |= O0 NONBLOCK; /* Don't let /dev/console block */ 
1319 noctty - l; 
1320 ) 
1321 
1322 if (device == PTMX DEV) { 
1323 #ifdef CONFIG UNIX98 PTYS 
1324 
1325 /* find a free pty. */ 
1326 int major, minor; 
1327 struct tty driver *driver; 
1328 
1329 /* find a device that is not in use. */ 
1330 retval = -1; 
1331 — for ( major = 0 ; major < UNIX98 NR MAJORS ; major++ ) f 
1332 driver = &ptm driver[major]; 
1333 for (minor = driver->minor start ; 
1334 minor € driver—>minor start + driver—^num ; 
1335 minor++) - { 
1336 device = MKDEV(driver—>major, minor); 
1337 if (!init_dev(device, &tty)) goto ptmx found; /* ok! */ 
1338 } 
1339 } 
1340 return -FEJ0; /* no free ptys */ 
1341 ptmx found: 
1342 set_bit (TTY PTY LOCK, &tty— flags); /* LOCK THE SLAVE */ 
1343 minor -= driver->minor start; 
1344 devpts_pty_new(driver->other-->name base + minor, 
MKDEV (driver-^other-^major, minor + driver->other->minor start)) ， 
1345 tty register devfs(&pts driver[major], DEVFS FL NO PERSISTENCE, 
1346 pts driver[ma jor]. minor start + minor); 
1347 noctty = 1; 
1348 goto init_dev_done; 
1349 
1350 else  /* CONFIG UNIX 98 PTYS */ 
1351 
1352 return —ENODEY; 
1353 
1354 Hendif /* CONFIG UNIX 98 PTYS */ 
1355 } 
1356 
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1357 retval = init_dev(device, &tty); 
1358 if (retval) 

1359 return retval; 

1360 


找到 代表 着 日 标 设备 的 文件 节点 以 后 ， 其 inode 结构 中 的 i rdev 字段 就 是 目标 设备 的 设备 号 。 首 
先 要 看 这 是 不 是 当前 进程 的 控制 终端 ， 常 数 TITY_DEYV 定义 于 drivers/char/tty_io.c: 


108 Hdefine TTY DEV MKDEV (TTYAUX MAJOR, 0) 


就 是 说 ， 主 设备 号 为 $S， 次 设备 号 为 0， 这 就 是 /devwtty， 表 示 当 前 进程 的 “控制 终 病 ”， 而 并 不 指 
向 任何 物理 意义 上 的 终端 。 一 个 进程 通常 都 有 个 “控制 终端 ”。 如 果 没 有 ， 那 么 打开 的 第 一 个 终端 设 
备 - - 般 就 成 为 其 控制 终端 ， 但 是 那 得 要 使 用 表示 具体 终端 的 设备 文件 名 才 行 。 有 时 候 昌 然 一 个 进程 沿 
无 控制 终端 ， 并 且 又 要 打开 一 个 终端 设备 ， 可 是 却 并 不 要 将 它 作为 控制 终端 ， 在 这 种 情况 下 就 可 以 在 
系统 调用 open( ) 的 参数 flags 中 将 一 个 标志 O_NOCTTY 设 成 1, 这 里 的 1295 行将 这 个 标志 位 的 值 保 存 
在 一 个 局 部 量 noctty 中 备用 。 另 一 方面 ， 每 个 进程 的 task. structure 数据 结构 中 有 个 指针 tty， 指 向 代表 
着 其 当前 控制 终端 的 tty_struct 数据 结构 。 如 果 这 个 指针 为 0， 邦 就 说 明 这 个 进程 还 没有 控制 终端 ， 所 
以 返回 出 错 代 码 -ENXIO， 表 示 没 有 这 人 么 个 设备 。 如 果 划 打开 的 确实 是 当前 进程 的 “控制 终端 ”， 那 就 
已 经 不 是 第 一 次 打开 了 ， 这 里 把 通过 /dev/tty 建立 的 连接 强制 设 成 O_NONBLOCK. 

编译 选择 项 CONFIG_VT 表示 系统 中 是 否 配备 了 前 述 由 显示 器 和 键盘 构成 的 虚拟 终端 。 常 数 
CONSOLE DEV 和 SYSCON DEV 的 定义 为 ( 见 drivers/char/n_tty.c): 


48 #define CONSOLE DEV MKDEV (TTY MAJOR, 0) 
49 tdefine SYSCONS DEV MKDEV (TTYAUX MAJOR, 1) 


就 是 说 ， 如 果 主 设备 号 为 4 而 次 设备 号 为 0， 即 /dev/tty0 (表示 当前 虚拟 控制 台 〉 ， 则 将 其 替换 成 
具体 的 设备 号 。 在 支持 虚拟 控制 台 的 内 核 中 有 个 全 局 量 fg_console， 表 示 当 前 的 “前 台 控 制 台 ”。 这 个 
变量 的 数值 是 从 0 开始 的 ， 而 各 个 具体 虚拟 控制 台 的 次 设备 号 却 从 1 开始 ， 所 以 二 者 在 数值 上 差 1。 这 
样 ，1307 行 就 根据 fg. console 的 数值 还 原 了 当前 虚拟 控制 台 的 设备 号 。 另 一 方面 ， 由 于 这 个 虚拟 控制 
台 原 来 就 书 打 开 , 所 以 把 noctty 设 成 1, 保持 其 原状 不 变 。 主 设备 号 为 5 而 次 设备 号 为 1 即 /dev/consoie， 
用 于 外 接 的 控制 台 。 我 们 在 前 面 曾经 提 刘 过 ，/dewconsole 一 般 是 连接 到 /dev/tty0 的 。 但 是 ， 在 不 同 的 
版 本 里 情况 有 所 不 同 。 如 果 /dev/console 不 是 连接 到 /devtty0， 而 是 主 设备 号 为 $， 次 设备 号 为 1， 那么 
内 核 在 初始 化 过 程 中 安装 模块 时 会 通过 一 个 中 数 register_console( ) 登 记 用 作 控 制 台 的 终端 设备 , 把 一 个 
console 数据 结构 挂 到 内 核 中 的 console, drivers. 队列 中 ， 此 后 内 核 便 会 将 需要 显示 的 出 错 信息 〈 通 过 
printk( ) 显 示 的 信息 ) 输出 到 所 登记 的 设备 上 。 我 们 在 后 面 要 讲 到 console 数据 结构 ， 但 是 在 这 里 只 要 
知道 这 个 数据 结构 里 有 个 字段 device， 就 是 具体 终端 设备 的 设备 号 就 行 了 。 所 以 ， 如 果 要 打开 的 终端 
设备 是 这 样 的 /dev/console， 就 要 在 console drivers 队列 中 找到 第 一 个 设备 号 不 会 0 的 console HF, "t 
所 提供 的 设备 号 束 是 当前 系统 控制 从 的 设备 写 。 

Bua, $24 PTMX_DEV 的 定义 见 drivers/char/tty_io.c: 


- 34S . 


Linux 内 核 源 代码 情景 分 析 (下 册 》 
110 #define PTMX DEV MKDEV (TTYAUX MAJOR, 2) 


在 Documents/device.txt 文件 中 可 以 查 到 ， 主 设备 号 为 5 而 次 设备 号 为 2 的 字符 设备 文件 是 
/dev/ptmx， 是 用 于 的 终端 主 设备 的 。 我 们 在 前 面 已 经 介绍 过 伪 终 端 设备 ， 其 主 设 备 和 从 设备 的 主 设备 
号 分 别 为 2 和 3， 并且 因此 而 可 以 有 256 对 伪 终 端 设备 〈 次 设备 号 为 8 位 ) 。 这 实际 上 是 BSD 版 本 的 
做 法 ， 现 在 也 一 直 在 沿用 ， 但 是 system V 采用 了 一 种 不 同 的 方法 。 在 system V 中 设置 了 一 个 总 的 
伪 终 端 主 设备 文件 /dev/ptmx， 但 是 它 的 作用 与 上 述 /devconsole 相似 ， 只 是 提供 了 一 个 总 的 入 
中 ， 而 实际 的 设备 号 要 在 打开 文件 时 临时 分 配 ， 这 样 就 可 以 有 更 多 的 设备 号 用 于 伪 终 端 设备 。 在 早期 
的 应 用 中 ， 有 上 吾 对 的 伪 终 端 设备 已 经 够 用 了 ， 所 以 system V 这 种 方法 的 优点 并 个 明显， 但 是 ， 随 着 
网 络 技术 和 应 用 的 发 展 ， 后 者 的 优越 性 却 显 得 突出 起 来 。 用 Unix/Linux 系统 作为 网 络 服务 器 时 ， 可 站 
会 要 求 数 百 个 甚至 上 千 个 连接 ， 这 时 候 256 个 伪 终 端 主 设备 号 就 不 够 用 了 ， 向 采用 system V 的 方法 就 
不 受 这 个 限制 。 当 然 ， 采 用 BSD 的 方法 也 可 以 通过 增加 用 于 伪 终 端 设备 的 主 设备 号 个 数 来 扩充 它 的 容 
量 ,但 是 那样 在 应 用 程序 中 就 要 考虑 对 大 量 伪 终端 设备 文件 的 调度 和 管理 ,例如 ,你 怎么 知道 /dev/ptyr32 
己 经 在 使 用 中 ， 而 /dev/ptyx87 还 空闲 着 昵 ? 而 systom V 的 方法 则 实际 上 把 这 部 分 工作 移 到 了 内 核 中 ， 
效率 当然 旨 高 一 些 , 并 且 应 用 程序 也 可 以 简化 。 所 以 , 在 新 的 Unix 版 本 , BI Unix98 中 采用 了 System V 
的 方案 并 加 以 配套 完善 ， 并 且 又 将 主 设备 号 125~135 分 配 用 于 伪 终 端 主 设备 ，136 一 143 用 于 次 设备 ， 
这 样 理论 上 的 容量 就 可 以 达到 8X256， 即 2048 对 伪 终 端 设备 。 对 于 Linux 内 核 ， 这 是 作为 一 个 可 选项 
提供 的 ， 相 应 的 条 件 编译 选择 项 就 是 CONFIG_UNIX98_PTYS， 不 过 这 需要 2.1 版 或 以 上 的 C 程序 库 
glibc 配套 〈glibc 为 用 户 程序 提供 若干 库 函 数 ， 例 如 ptsname( ) 返 回 与 一 个 已 经 打开 的 伪 终 端 主 设备 相 
对 应 的 次 设备 文件 名 ) 。 如 果 选 择 了 这 个 可 选项 ， 那 么 内 核 在 初始 化 时 根据 实际 用 才 伪 终端 主 设备 号 
的 个 数 〈 由 常数 UNIX98_NR_MAJORS 决定 ) 初始 化 两 个 tty_driver 结构 ( 见 下 ) 数 组 ptm_driver[ ] 和 
pts_driver[ ]， 分 别 用 于 主 设备 和 从 设备 ， 然 后 在 用 户 进程 通过 /dev/ptmx 打开 一 个 伪 终 端 主 设备 时 再 动 
态 加 以 分 配 。 代 码 中 第 1331 行 开始 的 for 循环 扫描 ptm driver 1 中 的 每 个 元 素 ， 即 每 个 主 设备 号 , 并 且 
对 于 每 个 主 设备 号 依次 尝试 各 个 次 设备 号 ， 如 果 以 某 个 主 设备 号 和 次 设备 号 的 组 合 调用 init dev( ) 成 
功 ， 则 一 个 新 的 伪 终 端 主 设备 就 打开 成 功 了 。 但 是 ， 接 着 还 要 转 到 ptmx_found 处 为 进 步 打开 次 设备 
作 好 准备 。 数 组 ptm driver[ ] 和 pts driver[ ] 中 的 每 个 元 素 都 是 个 tty_driver 数据 结构 ， 结 构 中 有 个 指 
Et other 用 来 指向 与 之 配对 的 另 -一 方 ， 所 以 1344 行 的 driver 指向 ptm driver[. ] 中 的 某 个 元 素 ， 而 
driver->other 则 指向 pts driver[ ] 中 与 之 配对 的 元 素 。 此 外 ， 函 数 devpts_pty_new( ) 为 相应 的 次 设备 在 内 
存 中 创建 一 个 inode 数据 结构 ，tty_reqister_devfs 则 为 之 创建 一 个 devfs 设备 六 点 ， 例 如 /dew/pts/0， 
/dev/pts/134， 等 等 。 注 意 ， 终 端的 号 码 是 连续 编号 的 。 由 于 篇 幅 所 限 ， 我 们 在 这 里 就 不 深入 到 这 两 个 
函数 中 去 了 ， 有 需要 或 有 兴趣 的 读者 可 以 自行 阅读 。 

除 对 /dev/ptmx 作 特 殊 处 理 外 ,对 其 他 终端 设备 〈 包 括 伪 终端 设备 ) 的 打开 文件 操作 在 取得 了 最 终 
的 设备 号 以 后 都 在 1357 行 调用 init_dev( )， 为 需要 打开 的 终端 设备 建立 一 个 (或 找到 其 ) tty. struct 数据 
结构 。 | 
每 个 已 打开 的 终端 设备 都 由 一 个 tty. struct 数据 结构 代表 , 这 种 数据 结构 定义 于 include/linux/tty.h: 


245 /* 
246 * Where all of the state associated with a tty is kept while the tty 
247 * is open. Since the termios state should be kept even if the tty 
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* has been closed -—- for things like the baud rate, etc ~-- it is 
* not stored here, but rather a pointer to the real state is stored 
* here. Possible the winsize structure should have the same 
* treatment, but (1) the default 80x24 is usually right and (2) it's 
* most often used by a windowing system, which will set the correct 
* size each time the window is created or resized anyway. 
* IMPORTANT: since this structure is dynamically allocated, it must 
* be no larger than 4096 bytes. Changing TTY FLIPBUF SIZE will change 
* the size of this structure, and it needs to be done with care. 
* - TYT, 9/14/92 
*/ 
struct tty struct | 

int magic; 


struct tty driver driver; 

struct tty ldisc ldisc; 

struct termios *termios, *termios locked; 
int pgrp; 

int session; 

kdev t device; 

unsigned long flags; 

int count; 

struct winsize winsize; 

unsigned char stopped:l, hw stopped:l, flow stopped:l, packet:1; 
unsigned char low latency:l, warned:1; 
unsigned char ctrl status; 


struct tty struct *link; 
struct fasync struct *fasync; 
struct tty flip buffer flip; 
int max flip ont; 

int alt speed; /* For magic substitution of 38400 bps */ 
wait queue head t write wait; 
wait queue head t read wait; 
struct tq struct tq hangup; 
void *disc data; 

void *driver data; 

struct list head tty files; 


#define N TTY BUF SIZE 4096 


/* 

* The following is data for the N TTY line discipline. For 
* historical reasons, this is included in the tty structure. 
*/ 

unsigned int column; 

unsigned char lnext:l, erasing:l, raw:l, real raw:l, icanon:1; 
unsigned char closing:l; 

unsigned short minimum to wake; 
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296 unsigned overrun time; 

297 int num overrun; 

298 unsigned long process char map[256/ (8*sizeof (unsigned long))]; 
299 char *read buf; 

300 int read head; : 

301 int read tail; 

302 int read cnt; 

303 unsigned long read_flags[N_TTY_BUF_SIZE/ (8*sizeof (unsigned long))]; 
304 int canon_data; 

305 unsigned long canon_head; 

306 unsigned int canon_column; 

307 struct semaphore atomic read; 

308 struct semaphore atomic write; 

309 spinlock t read lock; 

310 kh 


这 里 先 介绍 一 下 其 中 几 个 特别 重要 的 成 分 ， 结 构 中 其 他 字段 的 作用 随 着 代码 的 阅读 自 会 变 得 清楚 
起 来 。 首 先是 一 个 tty_driver 数据 结构 (261 行 )。 如 前 所 述 ， 每 种 终端 设备 都 有 自己 的 tty, driver 结构 ， 
结构 中 主要 是 一 些 函 数 指针 ， 确 定 了 对 具体 终端 类 型 的 一 整套 操作 。 内 核 中 有 个 链表 tty_drivers， 
系统 在 初始 化 时 ， 或 安装 某 种 终端 设备 的 驱动 模块 时 ， 通 过 项 数 tty register driver( ) 将 各 
种 终端 设备 的 tty_driver 结构 登记 到 这 个 链表 中 。 每 当 新 打开 一 个 终端 设备 时 ， 就 要 根据 其 设备 号 通过 
函数 get_tty_driver( ) 在 这 个 链表 中 找到 相应 的 tty. driver 结构 ， 并 把 它 复制 到 有 具体 的 tty. struct 结构 中 。 
第 二 个 重要 成 分 就 是 tty_ldisc 数据 结构 (262 行 ) 。 如 前 所 述 ， 内 核 中 有 个 tty_ldisc 结构 数组 ldiscs[]， 
当 新 创建 一 个 tty. struct 结构 时 , 就 从 该 数组 中 把 相应 的 tty_ldisc 结构 复制 到 tty. struct 结构 中 的 这 个 成 
分 中 。 第 三 个 重要 成 分 是 指针 termios， 指 向 一 个 termios 结构 。 每 个 逻辑 意义 上 的 终端 设备 接口 ， 如 串 
行 口 、 图 形 卡 和 键盘 的 组 合 乃 至 伪 终 端 设备 的 两 端 ， 都 有 一 个 termios 数据 结构 。 这 个 数据 结构 在 某 种 
程度 上 可 以 看 作 是 对 tty_ldisc 结构 的 补充 ， 它 规定 了 对 接口 上 输入 和 输出 的 每 个 字符 所 作 的 处 理 
以 及 传输 的 速度 ， 即 “ 波 特 率 ”。 数 据 结 构 的 定义 在 include/asm-386/termbits.h 中 : 


10 Hdefine NCCS 19 


11 struct termios | 

12 tcflag t c iflag; /* input mode flags */ 
13 tcflag t c oflag; /* output mode flags */ 
14 tcflag t c cflag; /* control mode flags */ 
15 tcflag t c lflag; /* local mode flags */ 
16 ce. t; 6. Fines /* line discipline */ 

17 cc t c cc[NCCS) ; /* control characters */ 
IB. dm 


同一 文件 中 定义 了 用 于 这 个 结构 中 各 个 字段 的 许多 常数 〈 大 多 是 标志 位 》， 例 如 用 于 c Iflag 字段 
的 标志 位 ISG 为 0000001, ICANON 为 0000002, ECHO 为 0000010。 如 果 将 c_lflag 字符 中 的 这 些 标志 
ATi FX, 0, 则 相应 终端 设备 就 工作 于 所 谓 ”" 怕 始 模式 ”(raw mode), 否则 就 工作 于 所 谓 “ 加 工 模 式 ”(cooked 
mode)。 有 关 详 情 在 疯 读 有 关 代 码 时 还 会 讲 到 。 限 于 篇 幅 ， 就 不 在 这 里 列 出 这 些 常数 的 定义 了 。 在 
tty. struct 结构 中 还 有 个 重要 的 成 分 fip， 是 个 tty. flip buffer 数据 结构 。 它 是 终端 设备 的 输入 缓冲 区 ， 
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底层 的 中 断 服 务 程序 将 接收 到 的 字符 存储 十 这 个 缓冲 区 中 ， 供 其 上 层 读 取 。 这 就 是 我 们 以 前 提 到 过 的 
上 层 的 同步 读 操 作 与 底层 的 异步 读 操 作 之 间 的 交 沪 .点 ， 共 定义 在 include/linux/tty.h P: 


132 
133 
134 
135 
136 
137 
138 
139 
140 
14] 
142 
143 
144 
145 
146 
147 
148 
149 


/* 


* This is the flip buffer used for the tty driver. The buffer is 
* located in the tty structure, and is used as a high speed interface 
* between the tty driver and the tty line discipline. 


*/ 


#define TTY_FLIPBUF_SiZE 512 


struct tty flip buffer { 


ie 


struct tq struct tqueue; 
struct semaphore pty sem; 
char *char buf ptr; 
unsigned char *flag buf ptr; 
int count; 

int buf num; 


unsigned char char buf[2X*TTY FLIPBUF STZE]; 


char flag buf[2*TTY FLIPBUF SIZE]; 


unsigned char  slop[4]; /* N.B. bug overwrites buffer by 1 */ 


Ej flip 相应 的 另 一 个 成 分 是 字符 位 图 process. char. map. 这 个 位 图 中 的 每 一 位 都 对 应 着 个 8 位 字 


符 ， 所 以 位 图 的 大 小 为 32 字 节 。 如 果菜 个 字符 企 这 个 位 图 中 的 对 应 位 为 1， 就 表示 可 能 要 对 这 个 字符 
作出 一 些 特殊 的 处 理 或 反应 往往 只 是 在 “加 工 模式 ”下 才 起 作用 ) 。 


随 着 代码 的 阅读 ， 数 据 结构 中 其 他 字段 的 作用 会 慢 慢 滨 得 清楚 起 来 。 了 两 数 init dev( ) 的 代码 在 


drivers/char/tty io.c 中 ， 这 也 是 个 比较 长 的 函数 ， 也 得 要 分 段 阅读 。 


[tty_open( ) > init dev( )] 


806 
807 
808 
809 
810 
811 
812 
813 
814 
815 
816 
817 
818 
819 
820 
821 


static int init dev(kdev t device, struct tty struct **ret_tty) 


{ 


struct tty struct *tty, *o tty; 

struct termios *tp, **tp_loc, *o tp, ***o tp loc; 
struct termios *ltp, **ltp_loc, *o ltp, ***o ltp loc; 
struct tty driver *driver; 

int retval=0; 

int idx; 


driver = get tty driver(device);. 
if (!driver) 
return -ENODEVY; 
idx = MINOR (device) - driver-5»minor start; 
/* 
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822 * Check whether we need to acquire the tty semaphore to avoid 
823 * race conditions. For now, play it safe. 

824 */ 

825 down tty sem(idx); 

826 

821 /* check whether we're reopening an existing tty */ 

828 tty = driver->table[idx]; 

829 if (tty) goto fast track; 

830 

831 /* 

832 * First time open is complex, especially for PTY devices. 
833 * This code guarantees that either everything succeeds and the 
834 * TTY is ready for operation, or else the table slots are vacated 
835 * and the allocated memory released. (Except that the termios 
836 * and locked termios may be retained. ) 

837 */ 

838 

839 o tty = NULL; 

840 tp = o tp = NULL; 

841 ltp = o ltp = NULL; 

842 

843 tty = alloc.tty. struct ( ) ; 

844 if(!tty) 

845 goto fail no mem; 

846 initialize tty struct(tty); 

847 tty-^»device = device; 

848 tty-^driver = *driver; 

849 

850 tp loc = &driver-^termios[idx]; 

851 if (!*tp loc) | 

852 tp = (struct termios *) kmalloc(sizeof(struct termios), 
853 GFP_ KERNEL) ; 

854 if (!tp) 

855 goto free mem out; 

856 *tp = driver-^init termios; 

857 ] 

858 

859 ltp loc = &driver-^termios locked[idx]; 

860 if (!*Itp loc) { 

861 ltp = (struct termios *) kmalloc(sizeof(struct termios), 
862 GFP KERNEL) ; 

863 if (!ltp) 

864 goto free mem out; 

865 memset (ltp, 0, sizeof(struct termios)); 

866 j 

867 


WHBRANT. TERRAS., HEPA Akt «HIR file operations 结构 ， 从 而 
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同一 个 函数 tty_open( ), 这 里 需要 进一步 根据 设备 号 来 区 分 基体 的 设备 和 操作 。 另 一 个 参数 是 双重 指针 ， 
指向 一 个 tty. struct 指针 ， 目 的 是 用 来 返回 一 个 tty. struct 数据 结构 。 

简 言 之 ，init_dev( ) 的 任务 就 是 根据 设备 号 找到 或 创建 目标 终端 设备 的 tty_struct 数据 结构 ， 并且 
执行 在 打开 该 设备 时 所 需 的 附加 操作 。 首 先是 通过 get_tty_driver( ) 根 据 设 备 号 从 
tty_drivers 链表 中 找到 相应 的 tty_driver 数据 结构 (815 行 )， 这 个 结构 中 有 个 指针 table， 指 问 一 个 
tty struct 结构 指针 数组 。 数 组 中 包含 了 所 有 该 种 终端 设备 的 tty. struct 结构 指针 。 举 例 来 说 ， 主 设备 号 
为 5 的 “辅助 TTY 设备 ”实际 上 包括 了 好 几 种 不 同 的 终端 设备 ， 其 中 次 设备 写 64—255 RRA 
192 个 “呼出 型 * 串 行 品 终 端 设备 ,设备 文件 为 /dev/cua0 至 /dev/cual91。 所 以 , 在 链表 tty. drivers 
中 就 有 一 个 代表 着 呼出 型 终端 设备 的 tty. driver 数据 结构 ， 而 这 个 结构 中 的 指针 就 指向 一 个 大 小 为 192 
的 tty. struct 结构 指针 数组 。 由 于 这 种 终端 设备 的 次 设备 号 不 是 从 0 开始 的 ， 所 以 要 有 一 个 minor_start 
字段 ， 用 以 说 明 其 起 始 次 设备 号 ， 而 具体 的 次 设备 号 与 起 始 次 设备 的 差 就 用 作 访问 该 数组 的 下 标 〈 见 
819 行 ) 。 如 果 一 个 终端 设备 已 经 打开 ， 即 其 tty_struct 结构 已 经 存在 ， 那 么 数组 中 相应 的 指针 就 不 为 
0， 那 就 不 需要 创建 了 ( 郊 828 和 829 行 )， 否 则 就 要 通过 alloc_tty_struct( ) 分 配 空间 ， 然 后 就 是 对 这 个 数 
据 结构 的 初始 化 。 注 意 848 行 是 数据 结构 的 赋值 ， 是 把 整个 ny driver 数据 结构 复制 到 目标 设备 的 
tty_struct 结构 的 内 部 。 这 样 一 米 ， 前 述 两 个 函数 跳 转 结构 之 一 就 与 目标 设备 挂 上 了 钩 。 函 数 
initialize_tty_struct( ) 的 代码 也 在 tty_io.c 中 : 





(tty open( ) > init dev( ) > initialize tty struct( )] 


1958 static void initialize tty struct (struct tty struct *tty) 


1959 { 

1960 memset (tty, 0, sizeof (struct tty struct)) ; 
1961 tty->magic = TTY MAGIC; 

1962 tty->ldisc = ldiscs[N_TTY]; 

1963 tty->perp = -1; 

1964 tty-»flip.char buf ptr = tty—>flip. char_buf; 
1965 tty~>flip.flag buf ptr = tty->flip.flag buf, 
1966 tty->flip, tqueue. routine = flush to idisc; 
1967 tty—>flip. tqueue. data = tty; 

1968 init MUTEX (&tty—>flip. pty. sem); 

1969 init waitqueue_head(&tty—>write_wait) ; 

1970 init waitqueue_head(&tty~>read wait); 

1971 tty-^tq hangup. routine = do tty hangup; 

1972 tty->tq_hangup. data = tty; 

1973 sema_init (&tty—>atomic_read, 1); 

1974 sema init (&tty~>atomic write, 1); 

1975 spin lock init (&tty->read_lock) ; 

1976 INIT LIST HEAD(&tty-^tty files); 

1977  ] 


这 里 1962 行 又 是 数据 结构 的 赋值 ， 这 一 次 是 把 整个 tty_ldisc 数据 结构 复制 到 了 目标 设备 的 
tty struct. 结构 的 内 部 。 这 样 ， 前 述 的 酚 个 函数 跳 园 结构 就 都 与 目标 设备 挂 上 了 钩 。 不 管 是 什么 种 类 的 
终端 设备 ， 其 默认 的 tty_Idisc 数据 结构 都 是 ldiscs[N_TTY]， 这 里 N_TTY 定义 为 0。 这 就 是 虚拟 终端 ， 
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即 VGA 卡 加 键盘 所 采用 的 链 路 规则 , 这 种 “ 链 路 ”的 规则 就 是 不 存在 物理 的 链 路 。 至 于 其 他 终端 设备 ， 
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则 可 以 在 以 后 通过 系统 调用 ioctl ( ) 设 置 采 用 特殊 的 链 路 规则 


回 到 init dev( ) 的 代码 中 。 如 前 所 述 ， 在 tty_driver 结构 中 有 个 指针 termios 指向 一 个 termios 指针 
数组 ， 这 个 数组 也 是 以 终端 号 (次 设备 号 减 去 该 类 终端 设备 的 起 始 次 设备 号 ) 为 下 标的 。 与 此 相 平 行 ， 
还 有 个 指针 termios locked 指向 男 一 个 termios 结构 指针 数组 。 如 果 这 两 个 数组 中 对 应 于 正 欲 打开 的 终 
端 设备 的 termios 结构 指针 为 0， 就 表示 尚未 为 之 创设 termios 数据 结构 ， 所 以 要 为 之 分 配 空间 ( 见 852 
行 和 861 行 ) 并 初始 化 。 其 中 属于 termios[ ] 的 数据 结构 从 driver 结构 中 的 一 个 “样板 ”termios 结构 
init termios 复制 〈《 见 856 行 ) ， 而 属于 termios_locked[ ] 的 数据 结构 则 初始 化 成 全 0《〈 见 865 行 ) 。 


再 往 下 看 (tty_io.c) : 


[tty open( ) > init dev( )] 


868 
869 
870 
871 
872 
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if (driver->type == TTY DRIVER TYPE PTY) { 


o tty = alloc tty struct( ); 
if (!o tty) 
goto free mem out; 
initialize tty struct(o tty); 
o tty-^device = (kdev t) MKDEV(driver-^other-^ma jor, 
driver-^other-?minor start + idx): 
o_tty->driver = *driver-»other; 


o tp loc = &driver—>other—termios[idx}: 
if (I*o tp loc) { 
o tp = (struct termios *) 
kmalloc(sizeof(struct termios), GFP KERNEL); 
if (!o tp) 
goto free mem out; 
*o tp = driver-^?other-^init termios; 


} 


o ltp loc = &driver-^other-^termios locked[idx]; 
if (!%o ltp loc) { 
o ltp = (struct termios *) 
kmalloc (sizeof (struct termios), GFP KERNEL); 
if (lo ltp) 
goto free mem out; 
memset(o ltp, 0, sizeof(struct termios)); 


) 
/* 


* Everything allocated ... set up the o tty structure. 


*/ 
driver-^»other-^tablelidx] = o tty; 
if (!*o tp loc) 
*o tp loc = o tp; 
if (!*o ltp loc) 
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902 *o ltp loc = o_ltp; 

903 o tty-^termios = *o tp loc; 

904 o tty-^termios locked = *o ltp loc; 

905 (*driver-^other-»refcount)-*; 

906 if (driver->subtype == PTY TYPE MASTER) 
907 o tty-^count-**; 

908 

909 /* Establish the links in both directions */ 
910 tty-»link = o tty; 

911 o_tty->link = tty; 

912 } 

913 


对 于 打开 文件 操作 ， 伪 终端 是 有 其 特殊 性 的 ， 所 以 如 果 要 打开 的 是 伪 终 端 设备 不 论 是 主 设备 或 
次 设备 ) 就 要 进行 一 些 特殊 的 处 理 。 打 开 伪 终端 设备 时 ，tty_struct 结构 是 成 对 地 分 配 、 创 建 的 ， 这 样 
才能 使 两 个 数据 结构 预先 “背靠背 ”地 互相 挂 上 钩 。 以 打开 一 个 伪 终 端 主 设备 为 例 ， 在 创建 了 主 设备 
一 侧 的 tty. struct 结构 tty( 见 前 面 的 843 行 ) 以 后 ,还 要 创建 从 设备 … 侧 的 o_tty( 见 869 行 ) 。 这 里 o tty 
显然 是 表示 “the other tty”( 另 一 个 tty) 的 意思 。 伪 终端 主 设备 和 从 设备 的 tty_driver 数据 结构 都 通过 指 
针 other 指向 对 方 , 所 以 如 果 875 行 中 的 driver 指向 主 设备 的 tty_driver 结构 ， 则 driver->other TR [9] E; E 
配对 的 从 设备 的 tty_driver 结构 。 与 此 相似 ， 在 tty, struct 结构 中 也 有 个 指针 link， 可 以 用 来 互相 指向 对 
方 建立 起 伪 终 端 主 /从 设备 间 的 连接 ( 见 910—911 行 )。 这 样 ， 在 打开 主 设备 的 同时 就 分 配 好 了 从 设备 的 
tty struct 结构 ， 下 一 次 要 打开 从 设备 的 时 候 就 会 在 前 面 的 828 行 发 现 所 希 的 tty_struct 结构 已 经 存在 ， 
从 而 跳 过 创建 tty_struct 结构 等 操作 ， 转 到 fast_track 处 (在 956 行 )。 

我 们 继续 往 下 看 (tty_io.c): 


[tty_open( ) > init dev( )] 


914 /* 

915 * All structures have been allocated, so now we install them. 
916 * Failures after this point use release mem to clean up, so 
917 * there' s no need to null out the local pointers. 

918 */ 

919 driver table[idx] = tty; 

920 

921 if (!*tp_loc) 

922 *tp loc = tp; 

923 if (I*ltp loc) 

924 *]ltp loc = ltp; 

925 tty—>termios = *tp loc; 

926 tty-^termios locked = *ltp loc; 

927 (*driver->refcount) ++; 

928 tty->counttt; 

929 

930 /* 

931 * Structures all installed ... call the ldisc open routines. 
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* If we fail here just cali release mem to clean up. No need 


* to decrement the use counts, as release mem doesn’ t care. 
*/ 
if (tty->ldisc. open) { 
retval = (tty->ldisc. open) (tty); 
if (retval) 
goto release mem out; 
} 
if (o tty && o_tty->Idisc. open) { 
retval = (o_tty->Ildisc. open) (o tty); 
if (retval) { 
if (tty-^ldisc. close) 
(tty-»ldisc. close) (tty) ; 
goto release mem out; 


} 


goto success: 


/* 

* This fast open can be used if the tty is already open. 

* No memory is allocated, and the only failures are from 

* attempting to open a closing tty or attempting multiple 

* opens on a pty master. 

*/ 

fast track: 

if (test bit(TTY CLOSING, &tty->flags)) | 
retval = -EIO; 
goto end init; 

} 

if (driver type == TTY DRIVER TYPE PTY && 
driver->subtype == PTY TYPE MASTER) { 
/* 


* special case for PTY masters: only one open permitted, 


* and the slave side open count is incremented as well. 
*/ 
if (tty— count) { 
retval = -ETO; 
goto end init; 
} 
tty~>link->count+t; 
} 
tty-^count-t-; 
tty-^driver = *driver; /* N.B. why do this every time?? */ 


SUCCeSS: 
*ret tty = tty; 


/* All paths come through here to release the semaphore */ 
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qq 


980 end init: 


981 up tty sem(idx); 

982 return retval; 

983 

984 /* Release locally allocated memory ... nothing placed in slots */ 
985 free mem out: 

986 if (o tp) 

987 kfree(o tp); 

988 if (o tty) 

989 free tty struct(o tty); 

990 if (ltp) 

991 kfree(1tp) ; 

992 if (tp) 

993 kfree (tp) ; 

994 free tty_struct (tty) ; 

995 

996 fail no mem: 

997 retval = -ENOMEM; 

998 goto end init; 

999 

1000 /* call the tty release mem routine to clean out this slot */ 
1001 release mem out: 

1002 printk('init dev: ldisc open failed, clearing slot %d\n”, idx); 
1003 release_mem(tty, idx); 

1004 goto end_init; 

1005  ] 


这 里 将 新 创建 的 tty. struct 结构 “安装 ”在 其 所 属 tty. driver 结构 的 table[ ] 数 组 中 相应 的 位 置 上 (919 
行 )， 将 新 创建 的 termios 结构 安装 在 相应 的 数组 中 以 及 tty. struct 结构 中 921 行 和 925 行 ) 。 最 终 完 
成 对 tty. struct 结构 的 初始 化 以 后 ， 可 能 还 要 执行 下 层 的 打开 文件 操作 。 如 果 tty_ldisc 数据 结构 中 的 函 
数 指针 open 非 0， 就 要 通过 这 个 函数 进行 链 路 的 初始 化 。 如 前 所 述 ， 不 管 是 哪 ， 种 终端 设备 ， 开 始 时 
总 是 采用 与 下 标 N_TTY 对 应 的 tty_ldisc 结构 。 实际 上 , 这 个 结构 是 tty_ldisc_N_TTY, 其 中 的 指针 open 
指向 n_tty_open( )， 这 个 函数 的 代码 在 drivers/char/n_tty.c 中 : 


[tty_open( ) > init_dev( ) > n tty. open( )] 


860 static int n tty open(struct tty struct *tty) 


861 { 

862 if (!tty) 

863 return -EINVAL; 

864 

865 if ('tty->read_buf) { 

866 tty->read buf = alloc_buf( ); 
867 if (!tty->read_buf) 

868 return -ENOMEM; 

869 } 
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870 memset (tty->read buf, 0, N TTY BUF SIZE); 
871 reset buffer flags (tty); 

872 tty->column = 0; 

873 n tty set termios(tty, 0); 

874 tty-^»minimum to wake = 1l; 

875 tty-?closing = 0; 

876 return 0; 

877} 


读者 在 前 血 看 到 ，tty_driver 结构 中 有 个 成 分 flip， 是 个 tty_flip_buffer 数据 结构 ， 它 就 是 终端 设备 
的 输入 缓冲 区 。 终 端 设备 的 输入 有 两 种 方式 ， “种 叫 “ 版 始 模式 ”， 另 -种 叫 “ 加 工 模式 ”， 在 实际 
应 用 中 大 多 工作 于 加 工 模式 。Unix 的 作者 给 “加 工 模式 ” 取 了 个 很 形象 的 名 字 ， 叫 “cooked” 即 “经 
过 束 调 的 ”。 它 把 从 终端 设备 键盘 接收 到 的 字符 流 比 喻 作 " 生 米 *， 而 把 经 过 处 理 以 后 的 字符 流 比喻 成 
AUO a WREE tty driver 结构 中 的 tty. flip buffer 比喻 作者 饭 的 锅 ， 那 么 还 得 有 个 盘 了 来 存放 者 熟 
了 的 饭 。 为 了 这 个 日 的 ， 在 tty_driver 结构 中 设置 了 一 个 指针 read_buf， 让 尼 指 向 一 个 缓冲 区 ， 这 就 是 
仇 饭 的 盘子 。 在 打开 终端 设备 时 ， 如 果 发 现 这 个 缓冲 区 尚未 分 配 就 要 为 之 分 配 一 个 (866 行 )， 缓 冲 区 的 
大 小 为 一 个 页 面 。 与 这 个 缓冲 页 面相 对 应 ， 在 tty_struct 结构 中 还 有 个 位 图 read_flags[ ]， 位 图 中 的 每 … 
位 对 应 着 上 述 缓冲 区 中 的 和 位 个 字符 ， 在 “规范 模式 ”下 用 来 分 隔 不 同 的 缓冲 行 。 此 外 ， 还 有 一 些 配 合 
缓冲 区 使 用 的 字段 ， 例 如 read_head 和 canon_read， 都 是 缓冲 区 中 当前 读 出 位 置 的 下 标 ， 等 等 。 所 有 这 
些 字 段 都 要 加 以 初始 化 ， 这 是 由 reset_buffer_flags( ) 完 成 的 (网 n_tty.c): 


[tty_open( ) init dev( ) > n tty open( ) > reset_buffer_flags( )] 


118 /* 

119 * Reset the read buffer counters, clear the flags, 

120 * and make sure the driver is unthrottled. Called 

121 * from n tty open( ) and n tty flush buffer( ). 

122 */ 

123 static void reset buffer flags(struct tty struct *tty) 
124 { 

125 unsigned long flags; 

126 

127 spin lock irqsave(&tty-^read lock, flags); 

128 tty—^read head = tty—>read_tail = tty-^read cnt = 0; 
129 spin unlock irqrestore(&tty-^read lock, flags); 

130 tty-^canon head = tty-?canon data = tty-^erasing = 0; 
131 memset (&tty->read_flags, 0, sizeof tty—>read_ flags); 
132 check unthrottle(tty); 

133 ] 


所 涉及 字段 的 作用 在 阅读 tty_read( ) 的 代码 时 就 会 清楚 ， 现 在 只 是 初始 化 。 
在 n_tty_open( ) 中 还 有 个 也 数 些 执行 ， 那 就 是 n_tty_set_termios( )。 它 的 作用 主要 是 根据 终端 设备 
的 termios 数据 结构 设置 其 tty. struct 结构 中 的 字符 位 图 process, char. map 和 其 他 几 个 标志 位 (而 不 是 “ 设 
H termios 结构 ”)。 位 图 process char map 的 大 小 是 32 字 节 ， 共 256 位 ， 其 中 的 每 一 位 都 对 应 着 一 个 
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字符 。 如 果 位 图 中 的 某 一 位 为 1， 便 说 明 与 其 对 应 的 字符 在 “ 训 调 ”中 需要 加 以 特殊 的 处 理 。 这 个 函数 
的 代码 也 在 drivers/char/n_tty.c 中 : 





[tty_open( ) > init dev( ) > n_tty_open( ) > n_tty_set_termios( )] 


786 static void n tty set termios (struct tty struct *tty, struct termios ** old) 
Qr. A 


788 if (!tty) 

189 return; 

790 

791 tty-^icanon = (L ICANON(tty) != 0); 

192 if (test bit(TTY HW COOK IN, &tty->flags)) | 

193 tty-?raw = l; 

794 tty->real_ raw = l; 

795 return; 

796 } 

797 if (I ISTRIP(tty) || I IUCLC(tty) || I IGNCR(tty) || 
798 I ICRNL(tty) || I INLCR(tty) || L ICANON(tty) | | 
799 I IXON(tty) || L ISIG(tty) || L ECHO(tty) || 

800 I PARMRK(tty)) { 

801 cli( ); 

802 memset (tty->process_char_map, 0, 256/8); 

803 

804 if (I IGNCR(tty) || I ICRNL(tty)) 

805 set bit \r’, &tty-^process char map); 

806 if (I INLCR(tty)) 

807 set bit \n’, &tty-^process char map); 

808 

809 if (L ICANON(tty)) { 

810 set bit(ERASE CHAR(tty), &tty-^process char map): 
811 set bit(KILL CHAR(tty), &tty-^»process char map); 
812 set bit(EOF CHAR(tty), &tty-^process char, map); 
813 set bit( \n’, &tty->process_char map); 

814 set bit(EOL CHAR(tty), &tty-^process char map); 
815 if (L IEXTEN(tty)) { 

816 set bit(WERASE CHAR(tty), 

817 &tty-^process char map); 

818 set bit(LNEXT CHAR(tty), 

819 &tty-^process char map); 

820 set bit(EOL2 CHAR(tty), 

821 &tty-^process char map); 

822 if (L ECHO(tty)) 

823 set bit(REPRINT CHAR (tty), 

824 &tty- process char map); 

825 } 

826 } 

827 if (J_IXON(tty)) 1 
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828 
829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
844 
845 
846 
847 
848 
849 
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set bit(START CHAR(tty), &tty->process_char_ map); 
set bit(STOP CHAR(tty), &tty->process char map); 
} 
if (L ISTG(tty)) { 
set bit(INTR CHAR(tty), &tty-^process char map); 
set bit(QUIT CHAR(tty), &tty-^process char map); 
set bit(SUSP CHAR(tty), &tty~->process char map); 


} 
clear bit( . DISABLED CHAR, &tty—process_char_map) ; 
sti); 
tty-2^raw = 0; 
tty->real raw = 0; 
} else { 
tty->raw = 1; 
if ((I IGNBRK(tty) || (HL BRKINT(tty) && !I PARMRK(tty))) && 


(I IGNPAR(tty) || '!I TNPCK(tty)) && 
(tty—->driver. flags & TTY DRIVER REAL RAW)) 
tty-»real raw = 1; 

else 
tty-^real raw = 0; 


} 


这 个 函数 的 代码 中 使 用 了 许多 宏 定义 ， 这 些 宏 定义 以 后 也 常 要 用 到 。 这 些 定义 都 在 
include/linux/tty.h 和 include/asm-i386/termbits.h 中 ， 虽 然 数 量 不 少 ， 却 很 有 规则 ， 先 看 几 个 基本 操作 : 


183 
184 
185 
186 


Sdefine I FLAG(tty,f) ((tty)->termios—>c_iflag & (f)) 
Hdefine O FLAG(tty, f) ((tty)—>termios~>c oflag & (f)) 
Hdefine C FLAG(tty, f) ((tty)->termios~>c_cflag & (f)) 
Hdefine L FLAG(tty, f) ((tty)—termios-?c lflag & (f)) 


这 些 宏 操作 分 别 检 验 termios 结构 中 c_iflag( 输 入 )、c_oflag( 输 出 )、c_cflag( 控 制 ) 以 及 c_iflag (本 地 ) 


字段 中 的 


230 


某 一 位 。 在 这 个 基础 上 ， 例 如 ，L_ICANON(tty) 的 定义 为 ; 


tdefine L ICANON(tty) | L FLAG((tty), ICANON) 


就 是 说 ， 前 缀 LL 表示 要 检查 的 标志 位 在 c_lflag 中 ， 而 标志 位 为 ICANON。 由 此 类 推 ，L_IGNCR 
Xm c iflag 中 的 IGNCR 标志 位 ，L_ECHO 表示 c_lflag 中 的 ECHO 标志 位 ， 等 等 。 这 些 标志 位 的 意义 


和 作用 人 


SUP: 


L ICANON s “canonical mode” 或 “规范 模式 ”， 这 就 是 “加 工 模式 ”， 对 输入 的 子 符 要 加 以 “ 京 


I ISTRIP 
I IUCLC 
I IGNCR 


调 ” : 

表示 强制 将 输入 字符 的 最 高 位 设 成 0， 使 它 变 成 7 位 编码 。 
表示 将 接收 到 的 大 字 字 母 转换 成 小 写 。 

表示 将 接收 到 的 “ 回 车 ”字符 “\” 丢 齐 。 
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LICRNL ”表示 将 接收 到 的 “\r” 字 符 转 换 成 “nn”“【〔 如 打 ILIGNCR 29 0 的话) 。 
LINLCR ”表示 将 接收 人 到 的 “n” 学 符 转换 成 “\r”。 
I IXON 表示 如 果 接 收 到 CTRL_S 字符 就 暂停 输出 ， 直 到 接收 到 CTRL_Q 时 髓 恢复 输出 。 
L_ISIG 表示 如 果 接 收 到 CTRL C 等 控制 字符 就 向 在 该 终端 设备 上 运行 的 进程 发 出 信号 。 
L ECHO 表示 “本 地 回 送 ”， 就 是 在 从 终端 设备 接收 到 一 个 字符 时 就 立即 将 沪 字 符 同 送 到 该 终端 
设备 上 。 

此 外 ， 在 不 同 的 系统 中 或 者 不 同 的 键 稚 上 使 用 的 控制 字符 有 可 能 不 同 。 例 如 ， 企 屏幕 上 显示 大 量 
(RR. MEADE Ctrl-S 暂停 屏幕 上 显示 的 信息 向 上 滚动 ， 然 后 可 以 按 CtrlQ 继续 输出 。 可是， 在 
有 些 键盘 上 也 许 不 是 CtrLS 和 Ctrl-Q， 而 是 别 的 什么 。 所 以 在 termios 结构 中 还 有 个 数组 c ec] HR 
定义 各 种 控制 字符 的 代码 。 让 面 是 取 自 include/linux/tty.h 和 include/asm-i386/termbits.h 的 两 个 片段 ， 
可 以 用 来 说 明 这 个 数组 的 用 途 。 





173 #define START CHAR(tty) ((tty)->termios->c_cc[VSTART]) 
174 Hdefine STOP CHAR(tty) ((tty}->termios—>c_cc[VSTOP]) 


29 Hdefine VSTART 8 
30 Hdefine VSTOP 9 


这 表示 在 日 标 终端 设备 LATARA RO EE AEA termios 结构 中 的 c_cc[8] Al 
c_ce[9]。 不 过 ， 这 个 数组 不 完全 是 用 于 控制 学 符 ， 其 中 也 有 几 个 元 素 用 十 其 他 控制 目的 。 读 者 在 下 一 
节 中 将 会 看 到 这 些 标 志 位 和 控制 字符 全 “ 京 调 ” 中 的 作用 。 

最 后 ，init_dev( ) 通 过 参数 ret uy 返回 指向 tty_struct 结构 的 指针 。 我 们 回 到 tty. open ) 的 代码 中 继 
续 往 下 看 (tty_io.c): 


ity openC)] 
136]  #ifdef CONFIG UNTX98 PTYS 


1362 init dev done: 
1363 Bendif 


1364 filp-?privato data = tty; 

1365 [ile move(filp, &tty-^tty files) ; 

1366 check tty count(tty, ^tty open^); 

1367 if (tty >driver. type == TTY DRIVER TYPE PTY && 
1368 tLy-2driver. subtype == PTY TYPE MASTER) 
1369 noctiy = 1; 

1370 #ifdef TTY DEBUG HANGUP 

1371 printk('opening %s...”, tty_name(tty, buf)); 
1372 #endif 

1373 if (tty->driver. open) 

1374 retval = tly >driver. open(tty, filp); 
1375 else 

1376 retval = -ENODEV; 

1377 filp-^f flags - saved flags; 

1378 
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1379 if (!retval && test bit(TTY EXCLUSIVE, &tty—flags) && !suser( )) 
1380 retval - -EBUSY; 

1381 

1382 if (retval) | 

1383 #ifdef TTY DEBUG HANGUP 

1384 printk( error %d in opening %s...”, retval, 
1385 tty name(tty, buf)); 

1386 Hendif 

1387 

1388 release dev(filp); 

1389 if (retval != -ERESTARTSYS) 

1390 return retval; 

1391 if (signal pending(current)) 

1392 return retval; 

1393 schedule( ); 

1394 /* 

1395 * Need to reset f_op in case a hangup happened. 
1396 */ 

1397 filp-^f op = &tty fops; 

1398 goto retry open; 

1399 } 

1400 if (!noctty && 

1401 current~>leader && 

1402 'current-^tty && 

1403 tty->session == 0) | 

1404 task_lock (current) ; 

1405 current: >tty = tty; 

1406 task_unlock (current) ; 

1407 current-^tty old pgrp = 0; 

1408 Lty-2session = current-?session; 

1409 tty->pgrp = current-?pgrp; 

1410 } 

1411 if ((tty->driver, type == TTY DRIVER TYPE SERIAL) && 
1412 (tty-^driver. subtype == SERIAL TYPE CALLOUT) && 
1413 (tty->count == 1)) { 

1414 static int nr warns; 

1415 if (nr warns < 5) { 

1416 printk(KERN WARNING “tty io.c: ^ 

1417 "process %d (9s) used obsolete /dev/%s - ” 
1418 “update software to use /dev/ttyS9dWn", 
1419 current-^5pid, current -?comm, 

1420 tty name(tty, buf), TTY NUMBER (tty)) ; 
1421 nr_warns++; 

1422 } 

1423 } 

1424 return 0; 

1425 } 
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每 个 已 打开 文件 部 有 个 file 结构 作为 代表 ，file 结构 中 有 个 void 指针 private_data， 对 于 第 规 的 文 
件 这 个 指针 很 少 用 到 ， 现 在 就 用 来 指向 日 标 设备 的 tty_struct BRA. 3X FE, MERE BI HER Xy 
设备 的 连接 就 建立 起 来 了 。 同 时 ，tty_struct 结构 中 有 个 队列 头 tty_files， 这 里 遂 过 file move( ) 将 指 问 
该 终端 设备 的 file 结构 挂 入 这 个 队列 ， 以 便 在 需要 时 能 找到 所 有 与 此 相连 的 file 结构 。 

前 面 已 经 通过 相应 tty_ldisc 结构 所 提供 的 函数 指针 调用 了 与 链 路 规则 有 关 的 open 操作 ， 可 是 具体 
的 终端 类 型 也 可 能 有 需要 在 打开 文件 时 加 以 调用 的 函数 (1373 行 )。 对 于 用 作 控 制 台 的 虚拟 终端 ， 其 
tty. driver 数据 结构 为 console_driver， 其 open 函数 则 为 con_open( )， 其 代码 在 drivers/char/console.c FP: 





[tty. open( ) > con_open( )] 


2304 /* 
2305 * Allocate the console screen memory. 
2306 */ 


2307 static int con_open(struct tty struct *tty, struct file * filp) 
2308 { 


2309 unsigned int currcons; 

2310 int 1; 

2311 

2312 currcons = MINOR (tty->device) - tty->driver. minor_start; 
2313 

2314 i = vc allocate(currcons); 

2315 if (i) 

2316 return i; 

2317 

2318 vt cons{currcons]->vc_num = currcons; 

2319 tty->driver data = vt cons[currcons]; 

2320 

2321 if (Itty-^»winsize.ws row && 'tiy-^winsize.ws col) { 
2322 tty-^winsize.ws row = video num lines; 

2323 tty—>winsize. ws_col = video num columns; 

2324 } 

2325 if (tty->count == 1) 

2326 ves make devfs (currcons, 0); 

2327 return 0; 

2328 } 


XX ef CES E FE] BE 2A m (15) RF A it RK AO i AKRA eR mE F 
Xo, 47% BRAT # DEBT vc alocate( ) {4 4644 (drivers/char/console.c). JI ^h, XB #2 i 
ves_make_devfs( ) 在 /dev 目录 中 创建 一 个 ves 设备 文件 (节点 )， 使 应 用 软件 在 党 要 时 可 以 绕 过 常规 的 终 
端 设备 界面 ， 道 过 ves 设备 文件 直接 访问 这 个 缓冲 |x.。 

PIZI tty open ) 的 代码 中 ， 余 下 的 一 些 代码 束 留 给 读者 了。 

对 十 运行 于 “字符 模式 ”的 VGA 卡 ， 应 用 软件 既 可 以 通过 常规 的 终端 设备 界 硬 访问 控制 台 ， 也 可 
以 通过 ves 设备 文件 访问 控制 台 。 与 此 相似 ， 如 果 VGA EVGA 卡 ) 运 行 于 图 像 模式 ， 则 应 用 软件 也 
可 以 把 控制 台 作 为 图 像 设 备 打 开 ， 绕 过 常规 的 终端 设备 界面 而 直接 沪 问 图 像 缓冲 以 ， 称 为 “frame 
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buffer”。 这 种 安排 有 着 特殊 的 意义 ， 与 前 述 的 伪 终 端 设 备 的 使 用 相 结合 ， 就 可 以 让 视窗 答 理 进 称 处 理 
非 拼音 文字 的 显示 。 这 样 ， 就 孚 了 遇 种 显示 汉字 的 方法 ， 一 种 是 在 内 核 中 的 虚拟 终端 (控制 台 ) 虹 动 程序 
中 支持 汉字 的 显示 ; 男 一 种 就 是 在 应 用 软件 中 ， 即 在 视窗 管理 进程 中 支持 汉字 的 显示 。 
由 十 篇 幅 的 限制 ， 我 们 不 能 在 本 书 中 讲 到 对 作为 图 像 设 备 的 控制 台 ， 即 图 像 绥 冲 区 的 驱动 7， 有 
兴趣 或 需要 的 读者 可 以 目 己 阅读 有 关 的 代码 ， 这 些 代 码 都 在 drivers/video 日 录 下 。 


8.8 控制 人 台 的 驱动 


在 本 节 中 ， 我 们 通过 PC 机 控制 台 的 读 操作 来 看 虚拟 终端 ， 包 括 键盘 和 VGA 显示 卡 的 驱动 。 具 体 
地 说 ， 就 是 从 在 键盘 上 输入 个 别 的 字符 开始 ， 到 应 用 进程 从 其 标准 输入 通道 读 取 缓冲 行为 止 的 过 程 。 
虽然 这 只 是 个 输入 过 程 ， 但 是 实际 上 也 包含 了 对 嵌 幕 的 操作 ， 因 为 终端 设备 的 输入 操作 通常 都 包括 了 
对 输入 字符 的 “ 回 打 ”(echo)。 也 许可 以 说 ， 在 学 符 设 备 中 《 除 “… 些 网 络 设备 外 ) 控制 台 的 驱 荔 是 最 复 
杂 的 。 我 们 之 所 以 花 比 较 大 的 篇 旺 来 介绍 控制 台 的 驱动 ， 一 来 正 是 因为 它 比 较 复杂 ， 半 者 容易 遇 到 问 
Bü. 一 来 是 因为 控制 台 的 驱动 ， 从 而 对 有 关 代 码 的 理解 ， 对 于 Linux 的 汉化 工作 是 关键 性 的 。 

应 用 进 种 通常 以 其 “控制 终端 ”为 “标准 输入 ”通道 ， 所 以 对 “标准 输入 ”通道 的 读 操作 融 转 化 
成 对 某 个 虚拟 终端 的 读 操 作 ， 最 后 落实 成 对 控制 台 的 读 操 作 。 经 过 读者 已 经 熟知 的 过 程 ，CPU 通过 日 
标 设 备 的 file operations. 数据 结构 进入 控制 台 的 读 操 作 函 数 ， 这 就 是 tty_read( )， 定 义 于 


drivers/char/tty_io.c: 


645 static ssize t tty read(struct file * file, char * buf, size t count, 
646 loff t *ppos) 


647 | 

648 int 1; 

649 struct tty struct * tty; 

650 struct inode *inode; 

651 

652 /* Can t seek (pread) on ttys. */ 

653 if (ppos != &file—f pos) 

654 return -ESPIPE. 

655 

656 tty = (struct tty struct *)file->private data; 

657 inode = file-»f dentry 5d inode; 

658 if (tty paranoia check(tty, inode-^i rdev, "tty read^)) 

659 return -EIO; 

660 if (!tty || (test bit(TTY IO ERROR, &tty->flags))) 

661 return -EIO; 

662 

663 /* This check not only needs to be done before reading, but also 
664 whenever read chan( ) gets woken up after sleeping, so I've 
665 moved it to there. This should only be done for the N TTY 
666 line discipline, anyway. Same goes for write chan( ). -- jle. */ 
667 #if 0 
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678 #endi f 

679 lock kernel( ); 

680 if (tty->ldisc. read) 

68] i = (tty-Idisc. read) (tty, file, buf, count) ; 
682 else 

683 i = -EIO; 

684 unlock kernel( ) ; 

685 ita 2 

686 inode->i_atime = CURRENT TIME; 
687 return 1; 

688  ] 


如 前 节 中 所 述 ， 在 打开 (设备 ) 文 件 的 过 程 中 已 经 设置 好 了 旦 标 设 备 的 tty. struct 数据 结构 ， 并 且 使 
file 结构 中 的 指针 private data 指向 这 个 数据 结构 ， 所 以 这 里 656 行 毫 不 费力 就 找到 了 上 月 标 设备 的 
tty. struct 结构 。 

代表 着 终端 设备 的 “ 链 路 规程 ”的 是 tty_ldise 数据 结构 ， 对 才 控 制 台 ， 这 就 是 序号 为 N_TTY 的 
tty_Idise 结构 tty_ldisc_N_TTY， 这 是 在 初始 化 时 通过 tty_register_ldisc( ) 向 系统 登记 的 。681 行 通过 它 
所 提供 的 函数 指针 read 进入 了 驱动 程序 的 下 一 个 子 层 。 这 个 数据 结构 定义 于 drivers/char/n_tty.c F: 


1213 struct tty ldisc tty_ldisc_N_TTY = { 


1214 TTY LDISC MAGIC, /* magic */ 

1215 ^n boy y /* name */ 

1216 0, /* num */ 

1217 0, /* flags */ 

1218 n tty open, /* open */ 

1219 n tty close, /* close */ 

1220 n tty flush buffer, /* flush buffer */ 
1221 n tty chars in buffer, /* chars in buffer */ 
1222 read chan, /* read */ 

1223 write chan, /* write */ 

1224 n tty. ioctl, /* ioctl */ 

1225 n tty set termios, /* set termios */ 
1226 normal poll, /* poll */ 

1227 n tty receive buf, /* receive buf */ 
1228 n tty receive room, /* receive room */ 
1229 0 /* write wakeup */ 
1230 }; 


u[ X, XE read 函数 为 read. chan( )， 其 代码 在 drivers/char/n_tty.c 中 : 


[tty_read( ) > read_chan( )] 


925 static ssize t read chan(struct tty struct *tty, struct file *file, 


926 unsigned char *buf, size t nr) 
927 { 
928 unsigned char *b = buf; 
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929 DECLARE WAITQUEUE (wait, current): 

930 int c; 

931 int minimum, time: 

932 ssize_t retval = 0; 

933 ssize t size; 

934 long timeout; 

935 unsigned long flags; 

936 

937 do it_again: 

938 

939 if (!tty-^read buf) ( 

940 printk(^n tty read chan: called with read buf == NULL?!?\n”) ; 
94] return -EIO; 

942 ] 

943 

944 /* Job control check -- must be done at start and after 
945 every sleep (POSTX.1 7.1.1.4). x/ 

946 /* NOTE: not yet done after every sleep pending a thorough 
947 check of the logic of this change. — jle */ 

948 /* don't stop on /dev/console */ 

949 if (file->f_dentry—>d_inode->i_rdev != CONSOLE DEV && 
950 file->f dentry-^d inode-^i rdev !- SYSCONS DEV && 
951 current->tty == tty) { 

952 df (tty->pgrp <= 0) 

953 printk ("read_chan: tty->pgrp <= 0!W^); 

954 else if (current-^pgrp !- tty->pgrp) { 

955 if (is ignored(SIGTTIN) || 

956 is orphaned pgrp(current-^pgrp)) 

957 return: -ETO; 

958 kill pg(current-^pgrp, SIGTTIN, 1); 

959 return -ERESTARTSYS; 

960 } 

961 } 

962 


读者 对 上 面 这 - 段 代 码 应 该 不 会 有 困难 了 , 我 们 把 它 留 给 读者 结合 前 几 章 中 的 有 关内 容 白 己 阅读 


[tty read( ) > read chan( )] 


963 minimum = time = Q; 

964 timeout = MAX SCHEDULE TIMEOUT: 

965 if (!tty->icanon) { 

966 time = (HZ / 10) * TIME CHAR(tty); 

967 minimum = MIN CHAR (tty); 

968 if (minimum) { 

969 if (time) 

970 tty->minimum to wake = 1; 

971 else if (!waitqueue active (&tty—>read wait) || 
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972 (ity >minimum_to_wake > minimum) ) 
973 tty-^?minimum to wake = minimum; 
974 | else { 

975 timeout = Q; 

976 if (time) { 

977 timeout = time; 

978 time = 0; 

979 j 

980 tty-»minimum to wake = minimum = |; 
981 ) 

982 } 

983 

984 if (file->f flags & O NONBLOCK) | 

985 if (down trylock(&tty-^atomic read)) 
986 return -EAGAIN; 

987 j 

988 else 1 

989 if (down interruptible(&tty-^»atomic read)) 
990 return -ERESTARTSYS; 

991 } 

992 

993 add wait queue (&tLy->read wait, &wait); 

994 set bit(TTY DONT FLIP, &tty—>flags) ; 


在 “原始 ”模式 和 非 “ 规 范 ” 模 式 中 ， 当 输入 缓冲 区 中 有 了 最 低 限 度 minimum_to_wake 
时 ， 就 更 唤醒 正在 等 待 着 从 该 设备 读 出 的 进程 。 这 里 的 965—982 TAREHE PAM, XC AIL 
值 “ 般 都 是 1。 

对 从 同一 终端 设备 的 读 出 应 该 是 豆 斥 的 ， 所 以 要 放 在 临界 区 中 。 此 外 ， 还 要 在 当前 进程 的 系统 堆 
栈 中 准备 下 一 个 wait_queue_t 数据 结构 wait， 并 把 它 挂 入 日 标 终端 的 等 待 队 列 read. wait 中 ， 使 终端 设 
备 的 驱动 程序 在 有 数据 可 读 时 吕 以 唤醒 这 个 进程 。 当 然 ， 也许 终 端 设 条 的 输入 缓冲 区 中 现在 就 有 数据 ， 
因而 根本 就 不 需要 进入 睡眠 ， 但 是 那 也 没有 关系 ， 读 到 了 数据 之 后 冉 把 它 从 队列 里 摘除 就 可 以 了 。 这 
里 还 把 tty->flags 中 的 一 个 标志 位 TTY_DONT_FLIP 设 成 1， 读者 在 后 面 将 会 看 到 这 个 标志 位 的 意义 和 
作用 。 

然后 就 是 个 while 循 十 (drivers/char/n_tty.c)。 


[tty read( ) > read_chan( )] 


995 while (nr) ( 

996 /* First test for status change. */ 

997 if (tty-»packet && tty-»link-^ctrl status) | 
998 unsigned char cs; 

999 if (b != buf) 

1000 break; 

1001 cs = tiy-»link-?ctrl status; 

1002 tty-»link ?ctrl status = 0; 
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1003 put user (cs, b++); 

1004 npe 

1005 break; 

1006 } 

1007 /* This statement must be first before checking for input 
1008 so that any interrupt will set the state back to 
1009 TASK RUNNING. */ 

1010 set current state(TASK TNTERRUPTIBLE) : 

1011 

1012 if (((minimum - (b - buf)) < tty-^minimum to wake) && 
1013 ((minimum - (b - buf)) >= 1)) 

1014 ity-»minimum to wake = (minimum ~ (b - buf)); 
1015 

1016 if (linput available p(tty, 0)) { 

1017 if (test bit(TTY OTHER CLOSED, &tty-^flags)) | 
1018 retval = -EIO; 

1019 break; 

1020 } 

1021 if (tty hung up p(file)) 

1022 break: 

1023 if (!timeout) 

1024 break; 

1025 if (file-^f flags & O NONBLOCK) { 

1026 retval = -EAGAIN; 

1027 break; 

1028 ] 

1029 if (signal pending(current)) | 

1030 retval - -ERESTARTSYS; 

1031 break; 

1032 } 

1033 clear bit(TTY DONT FLIP, &tty-^flags): 

1034 timeout = schedule timeout (timeout) ; 

1035 set bit(TTY DONT FLIP, &tty->flags) : 

1036 continue; 

1037 } 


对 才 伪 终端 设备 ， 叫 以 通过 系统 调用 ioctl( ) 将 主 / 从 两 端的 通信 方式 设置 成 “packet”( 信 和 包 ) 楼 式 ， 
因为 这 了 两 端 秆 往 在 通过 网 络 连 接 的 不 同 计算 机 中 。 这 这 种 情况 下 tty->packet 为 1， 而 者 
tty->link->ctrl_status JF 0 践 表示 有 反映 道 信和 链 路 状态 变化 的 控制 信息 需要 递交 ,所 以 要 优先 读 山 这些 控 
制 信和 起 (一 些 标 志 位 )。 不 过 这 与 我 们 这 个 情景 无 关 。 

指针 b 开始 时 (928 行 ) 指 向 用 户 空间 的 缓冲 区 buf， 随 着 字符 的 读 出 而 向 前 推进 ， 所 以 (b-buf) 就 是 
已 经 读 出 的 字符 数 。 如 于 tty->minimum_to_wake 开始 时 不 是 1, 那么 在 读 出 的 过 程 中 会 向 1 逼近 (1012~ 
1014 行 )。 

接着 通过 input_available_p( ) 检 查 输入 绥 冲 区 中 有 省 数 据 ( 宁 符 ) 可 供 读 出 。 在 “规范 模式 ”下 ， 检 
但 的 是 经 过 加 工 以 后 的 数量 ， 丛 在 原始 模式 下 则 是 检查 原始 字符 的 数量 。 这 个 函数 的 代码 在 
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drivers/char/n_tty.c P: 
[tty_read( ) > read chan( ) > input_available_p( )] 


879 static inline int input available p(struct tty struct *tty, int amt) 
880 { 


881 if (tty->icanon) { 

882 if (tty->canon_data) 

883 return 1; 

884 ) else if (tty->read_cnt >= (amt ? amt : 1)) 
885 return 1; 

886 

881 return 0; 

888  ] 


如 果 缓 冲 区 中 还 没有 字符 可 供 读 出 ， 则 当前 进程 般 要 睡眠 等 等 。 到 绥 冲 区 中 有 了 可 供 读 出 的 子 
符 时 才 会 被 唤醒 。 在 我 们 这 个 情景 中 ， 假 定 此 时 缓冲 区 中 没有 数据 ， 所 以 当前 进程 进入 了 睡眠 。 

为 了 更 好 地 把 注意 力 集中 在 发 生 键 盘 中 断 以 后 的 过 程 ， 我 们 暂 卫 假定 中 断 已 经 发 生 而 缓冲 区 中 已 
经 有 了 数据 ， 先 来 看 当前 进程 被 唤醒 并 被 调度 运行 以 后 的 操作 (drivers/char/m_tty.c)。 这 样 ， 等 一 下 我 们 
就 可 以 集中 看 从 键盘 中 断 开始 到 唤醒 睡眠 中 的 进程 为 止 的 过 程 了 。 相 比 之 下 ， 那 个 过程 更 为 重要 ， 也 
更 为 复杂 。 


[tty read( ) > read_chan( )] 


1038 current-?state = TASK RUNNING; 

1039 

1040 /* Deal with packet mode. */ 

1041 if (tty-^packet && b == buf) { 

1042 put user(TIOCPKT DATA, btt); 

1043 ht 一 一 ; 

1044 } 

1045 

1046 if (tty-»icanon) | 

1047 /* N.B. avoid overrun if nr == 0 */ 

1048 while (nr && tty->read_cnt) | 

1049 int eol; 

1050 

1051 eol = test and clear bit(tty-?read tail, 
1052 &ity >»read flags); 

1053 c = tty-?read buf[tty-^read tail]; 

1054 spin lock irqsave(&tty-^read lock, flags); 
1055 tty-?read tail = ((tty->read_tail+l) & 
1056 (N TTY BUF SIZE-1) ) ; 

1057 tty-»read cnt ; 

1058 spin unlock irgrestore(&tty-^read lock, flags); 
1059 
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1060 if (feol |! (c != __DISABLED CHAR)) | 

1061 pui user(c, bt): 

1062 are 

1063 } 

1064 if (eol) 1 

1065 /* this test should be redundant: 

1066 * we shouldn't be reading data if 

1067 * canon data is 0 

1068 */ 

1069 if (--tty->canon data < 0) 

1070 t1y—>canon_ data = 0: 

1071 break; 

1072 } 

1073 } 

1074 } else { 

1075 int uncopied; 

1076 uncopied = copy from read buf (tty, &b, &nr); 

1077 uncopied += copy from read buf (tty, &b, &nr): 

1078 if (uncopied) { 

1079 retval = -EFAULT; 

1080 break; 

1081 ] 

1082 } 

1083 

1084 /* Tf there is enough space in the read buffer now, let the 
1085 * low-level driver know. We use n tty chars in buffer( ) to 
1086 * check the buffer, as it now knows about canonical mode. 
1087 * Otherwise, if the driver is throttled and the line is 
1088 * longer than TTY THRESHOLD UNTHROTTLE in canonical mode, 
1089 * we won t get any more characters. 

1090 */ 

1091 if (n tty chars in buffer(tty) <- TTY THRESHOLD UNTHROTTLE) 
1092 check unthrottle(tty); 

1093 

1094 if (b - buf >= minimum) 

1095 break; 

1096 if (time) 

1097 timeout - Limo; 

1098 } 


HUE RAMA MEIN, = 般 在 缓 诈 区 中 已 经 有 了 数据 。 我 们 在 这 里 不 关心 packet 模式 的 操作 ， 所 以 
BET 1041~1044 行 。 先 看 规范 模式 (1046 一 1074 47). 在 需 范 模式 下 ,缓冲 区 中 的 字符 契 经 过 了 加 工 的 ， 
RT RRS “RIIT”, 即 和 磁 到 “ ”学 符 时 才 会 唤醒 等 待 读 出 的 进程 ， 此 时 tty->read_cnt 表示 组 
剖 行 中 的 了 符 个 数 。 另 一 方面 , 缓冲 区 Lty->read_buf[ ] 是 按 坏 彤 缓冲 区 使 用 的 ( 见 1055 47), tty-»read. tail 
指向 当前 可 供 读 出 的 第 一 个 字符 。 前 一 节 中 曾经 讲 介 ，tty_struct 结构 中 的 read, flags 是 个 位 图 ， 如 果 这 
个 位 图 中 对 应 于 tty->read_tail 这 一 位 为 1, 则 表示 这 个 位 置 上 已 经 是 缓冲 行 的 终点 ， 以 后 的 数据 已 经 属 
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于 男 一 缓冲 行 。 所以， 只 归还 没有 到 达 终 点 ， 就 逐个 字符 地 调 几 put. user( ) 将 其 复制 到 用 户 空 间 去 。 这 
个 过 程 要 循环 钊 已 经 满足 了 些 求 或 者 缓 痢 区 中 已 经 没有 字符 可 读 时 才 结 束 。 这 里 的 
__DISABLED_CHAR WE “\0”, 缓冲 行 中 的 最 后 一 个 字符 如 果 是 DISABLED_CHAR 就 不 复制 到 用 
PZR. ZAFE TF include/linux/tty.h: 


125 /* 

126 * This character is the same as POSIX VDISABLE: it cannot be used as 
127 * a c ecl ] character, but indicates that a particular special character 
128 * isn’t in use (eg VINTR has no character etc) 

129 */ 


130 define DISABLED CHAR 'VXO' 


TEAR BUTS E1074 ~ 1082 47). 缓冲 区 同样 也 是 tty->read_buff ]， 也 按 坏 形 缓 冲 区 使 用 ， 这 些 都 
一 样 ， 但 是 缓冲 区 中 的 字符 是 未 经 加 工 的 ， 也 无 所 谓 “ 缓 冲 行 ”?”。 田 一 方面 ， 对 十 原始 模式 并 没有 不 让 
把 “\0” 复 制 到 用 户 空间 的 规定 ， 所 以 这 时 通过 copy_from_read_buf( ) 进 行 成 片 的 复制 ， 以 加 快速 度 ， 
这 个 函数 的 代码 企 drivers/char/n_tty.c 中 : 


[tty read( ) > read, chan( ) > copy_from_read_buf( )] 


890 /* 

891 * Helper function to speed up read chan. : it is only called when 

892 * [CANON is off; it copies characters straight from the tty queue to 
893 * user space directly. It can be profitably called twice; once to 
894 * drain the space from the tail pointer to the (physical) end of the 
895 * buffer, and once to drain the space from the (physical) beginning of 
896 * the buffer to head pointer. 

897 */ 

898 static inline int copy from read buf (struct tty struct *tty, 

899 unsigned char **h, 

900 size t *nr) 

901 

902 | 

903 int retval; 

904 ssize t n; 

905 unsigned long flags; 

906 

907 retval = 0; 

908 spin lock irqsave(&tty-^read lock, flags); 

909 n = MIN (nr, MIN(tty-^read ent, N TTY BUF STZE - tty-^read tail)); 
910 spin unlock irgrestore(&tty-^read lock, flags); 

911 if (m { 

912 mb(); 

913 retval ~ copy to user(*b, &tty->read buf[tty-^read tail], n}; 
914 n -—- retval; 

915 spin lock irqsave(&tty-^read lock, flags); 

916 tty->read tail - (tty->read tail + n) & (N TTY BUF SIZE-1); 
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917 tty-^read cnt -= n; 

918 spin unlock irqrestore(&tty-^read lock, flags); 
919 *b += n; 

920 *nr -= n; 

921 } 

922 return retval; 

923 } 


由 于 缓冲 区 是 环形 的 ， 缓 冲 着 的 字符 有 可 能 分 成 两 段 ， 所 以 要 调用 copy_from_read_buf( ) 两 次 。 

缓冲 区 的 大 小 总 是 有 限 的 ， 如 果 从 键盘 打 入 字符 的 速度 很 快 ， 而 应 用 进程 又 来 不 及 从 缓冲 区 读 出 ， 
则 底层 的 驱动 程序 (主要 是 中 断 服 务 程序 ) 可 能 已 经 因为 缓冲 区 已 满 而 暂时 把 “阀门 ”关闭 了 。 现 在 ,如 
果 缓 冲 区 中 剩余 的 字符 数量 降 到 了 “ 低 水 位 ”TIY_THRESHOLD_UNTHROTTLE LAF, WÑ 
check_unthrottle( ) 再 打开 阀门 ， 这 个 函数 的 代码 也 在 drivers/char/n_tty.c HH: 


[tty read( ) > read chan( ) > check_unthrottle( )] 


105 /* 

106 * Check whether to call the driver. unthrottle function. 
107 * We test the TTY THROTTLED bit first so that it always 
108 * indicates the current state. 

109 */ 

110 static void check, unthrottie (struct tty struct * tty) 
111 { 

112 if (tty->count && 

113 test and clear bit(TTY THROTTLED, &tty-^flags) && 
114 tty~>driver. unthrottle) 

115 tty—>driver. unthrottle (tty) ; 

116 j 


除了 清除 代表 者 阀门 的 标志 位 TTY_THROTTLED Mih, wA REWA- TAR, ROENGRTÉA 
端的 tty driver 数据 结构 。 对 十 控制 台 终端 的 tty driver 数据 结构 console_driver， 这 个 函数 是 
con_unthrottle( )， 其 代码 在 drivers/char/console.c FP: 


[tty. read( ) > read chan( ) > check unthrottle( ) > con, unthrottle( )] 


2256 static void con unthrottle(struct tty struct *tty) 


2257 { 

2258 struct vi struct *vt = (struct vt struct *) tty—>driver data; 
2259 

2260 wake up interruptible(&vt-^paste wait); 

2261 } 


可 见 ， 目 的 只 是 唤醒 可 能 在 等 待 者 缆 把 数据 与 入 缓冲 区 的 进程 。 
PIE read_chan( RRA ARIE PS (drivers/char/n_tty.c): 


[tty read( ) > read chan( )] 
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1099 clear bit(TTY DONT FLIP, &tty->flags) ; 

1100 up(&tty-^atomic read); 

1101 remove wait queue(&tty-^read wait, &wait); 
1102 

1103 if (!waitqueue active(&tty-^read wait)) 

1104 tty-^minimum to wake = minimum; 

1105 

1106 current-?state = TASK RUNNING; 

1107 size = - buf; 

1108 if (size) { 

1109 retval = size; 

1110 if (nr) 

1111 clear bit (TTY PUSH, &tty->flags) ; 
1112 } else if (test and clear bit (TTY PUSH, &tty—>flags)) 
1113 goto do it again; 

1114 

1115 return retval; 

146 } 
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合用 户 空间 的 缓冲 区 ， 而 b 指出 出 该 缓冲 区 中 的 下 一 个 衬 亲 位置， 所 以 b-buf 就 是 已 经 读 入 该 缓冲 区 
中 的 字符 数量 。 参 数 nr 只 是 表明 用 户 罕 间 缓 首 区 的 大 小 ， 即 读 出 字符 数量 的 上 限 ， 在 规范 模式 下 实际 
读 出 的 字符 数 取 次 于 有 共 体 的 缓冲 行 。 

标志 位 TTY_PUSH 是 由 低层 驱动 程序 在 读 刘 一 个 EOF 字符 并 将 其 放 入 缓冲 区 时 设置 成 1 的 ， 表 
示 要 让 用 户 尽快 把 缓冲 区 .的 内 容 读 走 。 如 果 此 后 从 缓冲 区 读 出 了 绥 冲 区 中 的 所 有 字符 ， 就 把 这 个 标志 
位 清 0 并 结束 整个 读 出 操作 ; 和 否则， 就 说 明 还 要 继续 从 缓冲 区 读 。 所 以 如 果 本 次 读 操作 实际 并 林 恋 出 ， 
WEAR, Wirt 1113 行 的 goto 语句 转 到 前 而 (937 行 ) 的 do. it again 处 。 如 果 本 次 读 换 作 多 少 已 经 
读 出 了 若 十 字符 则 容许 下 次 再 读 。 

一 般 而 许 ， 一 个 典型 的 读 终 端 过 程 趾 以 分 成 下 州 直 部 分 ， 或 者 这 二 部 分 的 循环 : 

(1) 当前 进程 企图 从 终端 的 缓冲 区 读 出 ， 但 是 因为 缓冲 区 中 尚 无 足够 字符 供 读 出 而 受阻 ， 进 入 睡 

HEE ; 
(2) SUR, “SAAR LAS, (SR CSS SEPA, italien 
中 的 进程 唤醒 ; 

(3) ”睡眠 中 的 进程 被 唤醒 以 后 ， 继 续 完 成 读 出 。 

我 们 在 上面 阅读 的 是 这 个 过 程 中 的 第 “、 三 两 部 分 的 代码 ， 饮 读 时 从 是 假定 第 二 部 分 已 经 发 生 。 
实际 |.， 第 部 分 才 起 设备 驱动 程序 的 主体 ， 对 于 终端 设备 网 是 如 此 ， 下 面 我 们 就 来 看 这 … 部 分 的 代 
但， 


使 用 者 在 键盘 上 按 一 个 键 ， 恕 产生 了 一 个 中 断 请 求 ，CPU 在 响应 中 断 时 便 进 入 键盘 的 中 断 服务 程 
序 keyboard. interrupt( )。 人 们 往往 以 为 键盘 是 很 简单 的 设备 ， 但 是 实际 上 PC 键盘 的 结构 和 操作 都 不 简 
单 。 我 们 以 学 符 “A ”为 例 来 说 明 键 盘 的 操作 。 当 在 键盘 上 按 下 一 个 键 时 ， 键 盘 立 即 就 向 母 板 发 出 一 个 
字 节 的 代 但 ， 称 为 “键盘 扫描 码 ”。 有 具体 的 值 取决 才 键 的 位 置 ，“A” 键 的 键 稚 扫描 码 为 Oxlc. BHAR 
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上 的 键盘 接 品 在 接收 到 这 个 学 节 以 后 就 把 它 转 换 成 一 种 “系统 扫描 码 ”， 并 将 其 存 入 控制 器 的 内 部 组 
WK, AoE CPU 发 出 一 个 中 断 请 求 。 对 于 “A” 键 ， 其 系统 提 描 码 为 0xle。 当 CPU 从 键盘 接口 
的 数据 案 存 器 读 时 ， 读 出 的 就 是 系统 扫描 压 。 然 后 ， 当 放 开 “A” 键 时 ， 键 松 又 要 向 母 板 发 出 键盘 扫描 
码 ， 而 这 一 次 的 键盘 打 描 码 是 两 个 字 科 ， 第 一 个 总 是 0xfD， 表 示 是 放 开 一 个 键 ， 然后 是 0xlc， 表 示 是 
哪 一 个 键 。 辐 样 ， 母 板 上 的 键盘 接口 也 要 把 它 转 换 成 系统 扫描 码 、 也 要 向 CPU 发 出 中 断 请 求 ， 但 是 系 
统 扫描 码 仍 是 一 个 字 节 ， 只 是 在 0xle 的 基础 上 把 最 高 位 设 成 1， 变 成 了 0x9e。 这 样 ， 在 CPU 从 键盘 
接口 读 出 的 单字 节 系 统 扫描 侣 中 ， 其 最 高 位 表示 按 下 或 放 开 ， 询 低 7 位 则 与 具体 的 键 相对 应 。 不 光 对 
普通 的 了 符 键 是 如 此 ， 对 功能 键 和 控制 键 也 龙 “ 样 。 例 如 ,左右 两 个 Shift 键 的 系统 扫描 码 分 别 为 0x2a 
FU 0x36。 这 样 ， 以 输入 一 个 小 写 的 “a” 为 例 ，CPU 实际 上 可 能 要 发 生 4 次 中 断 、 要 依次 从 键 息 接口 
读 出 4 个 季 匀 的 系统 扫描 码 ， 例 如 ;0x36，0xle，0x9e，0xb6。 全 于 把 这 个 序列 解释 成 什么 ， 那 就 是 
软件 的 事 了 ; 如 果 解 释 成 ASCII 码 ， 而 键 捞 又 没有 锁定 在 大 写 状 态 ， 那 就 是 “a”。 山 此 可 见 ， 键 秀 接 
OH CPU 发 出 的 中 断 请 求 并 不 意味 着 从 键盘 接收 到 了 一 个 字符 ,省 只 是 意味 着 键盘 |: 发生 了 某 种 事件 。 
此 外 ， 上 而 只 是 一 般 向 言 ， 实 际 上 还 有 不 少 例外 。 其 中 最 重要 的 是 所 谓 “ 扩 充 键 ”。 早 期 的 PC 键盘 上 
只 有 83 个 键 ， 后 米 扩充 到 了 101 SERV 104 键 ， 例 如 右边 的 Ctrl 键 就 是 一 个 扩充 键 。 当 按 下 或 放 开 扩充 
键 时 , 键盘 扫描 码 和 . 系统 打 描 码 都 以 -个 OxeO 字 节 开头 ,所 以 按 下 右边 Ctrl 键 时 的 键 往 扫 描 码 是 [0xe0， 
0x14];， 放 开 时 为 [0oxe0，0xf0，0x14]， 相 应 的 系统 扫描 码 则 为 [0xe0，0xld] 以 及 [0xe0，0x9d]。 
把 这 些 事 件 和 产生 的 代码 列 成 表 可 以 看 得 更 清楚 一 些 ; 


事件 键盘 扫描 码 系统 扫描 码 
iF “A” i Oxlc Oxle 
放 开 “A” 键 Oxf0, Oxlc 0x9e 
按 下 右 Shift 键 0x59 0x36 
放 开 布 Shift E Oxft0, 0x59 Oxb6 
按 下 右 Ctrl ££ Oxe0, 0x14 Oxe0, Oxld 
WF A41 Ctrl 键 OxeO, Oxf0. 0x14 OxeO, Ox9d 


其 他 述 有 一 些 例 外 ， 主 要 与 控制 键 和 锁定 键 有 关 ， 我 们 在 这 里 就 不 详细 介绍 了 。 

之 所 以 把 键盘 扫描 公转 换 成 系统 扫描 码 ， 是 为 了 建立 起 一 个 统一 的 扫描 码 界 面 。 这 种 转换 是 几 键 
检 接 口 完成 的 ， 所 以 不 占用 CPU 的 时 间 。 不 过， 有 江 要 时 也 可以 通过 键盘 控制 器 关闭 这 种 转换 。 品 然 ， 
对 于 软件 而 言 键盘 所 描 码 是 不 可 见 的 ， 所 以 我 们 在 下 南 讲 到 “ 提 描 码 ” 时 都 是 指 系 统 扫 描 码 。 此 外 ， 
F 个 键 时 产生 的 打 描 码 常常 称 为 “make code”, MAF “个 键 时 产生 的 打 描 码 则 常常 称 为 “break 
code” 

KZ keyboard_interrupt( ) 的 代码 企 drivers/char/pc_keyb.c 中 : 


479 static void keyboard_interrupt (int irq, void *dev id, struct pt regs *regs) 
480 { 

481 Hifdef CONFIG VT 

482 kbd pt regs - regs; 

483 Hendif 
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spin lock irq(&kbd controller lock); 
handle kbd event( ) ; 
spin unlock irq(&kbd controller lock); 


} 
为 防止 不 同 的 CPU 同时 对 键盘 操作 (多 处 理 器 系统 中 )， 内 核 中 为 键盘 操作 设立 了 一 把 锁 ， 即 


kbd_controller_ lock， 以 保证 键盘 操作 的 互 斥 性。 函数 handle_kbd_event( ) 的 代 但 在 同一 文件 中 : 


[keyboard_interrupt( ) > handle_kbd_eventt )] 


446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
457 
458 
459 
460 
461 
462 
463 
464 
465 
466 
467 
468 
469 
470 
471 
412 
473 
474 
475 
476 


Té 


static unsigned char handle kbd event (void) 


{ 
unsigned char status = kbd read_status( ); 
unsigned int work = 10000; 


while ((--work > 0) && (status & KBD STAT OBF)) | 
unsigned char scancode; 


scancode = kbd read input( ) ; 


/* Error bytes must be ignored to make the 
Synaptics touchpads compaq use work */ 
#if 1 
/* Ignore error bytes */ 


fendif 
{ 
if (status & KBD STAT MOUSE OBF) 
handle mouse event (scancode) ; 
else 
handie keyboard event (scancode) ; 


) 


status = kbd read status( ); 
} 


if (!work) 
printk (KERN ERR "pc keyb: controller jammed (0x%02X).\n”, status); 


return status; 


} 


URES. RAED Eth “PIR A er Tae” M “RR ES”. EC BEE MAR AS By 
,看 看 发 生 了 什么 事 。 状 态 寄 存 器 中 有 个 标志 位 KBD_STAT_OBFCOBEF #5“ Output Buffer Full”), 


当 这 个 标志 位 为 1 时 就 表示 键盘 的 内 部 缓冲 区 中 有 数据 ， 可 以 道 过 数据 寄存 器 读 出 。 这 时 的 
kbd_read_status( ) 和 kbd_read_input( ) 部 是 定义 于 include/asm-i386/keyboard.h 中 的 宏 操作 : 
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48 #define kbd read input( ) inb (KBD DATA REG) 
49 #define kbd read status( ) inb(KBD STATUS REG) 


前 面 讲 过 ， 从 PC 键盘 读 入 的 是 着 描 码 ,代表 着 相应 的 键 在 键盘 上 的 位 置 以 及 键 的 状态 , TSE 
文字 的 编码 无 关 ， 因 此 要 根据 定 的 规则 将 扫描 码 转 换 成 相应 的 代 翁 。 间 时， 缓冲 区 中 可 能 有 不 止 一 
个 的 字 节 ， 岗 而 要 通过 一 个 while 循环 从 缓冲 区 逐个 字 节 地 读 出 。 鼠 标 器 通常 与 键盘 共用 同 - .个 接口， 
所 以 还 要 根据 状态 寄存 器 的 内 容 确 定数 据 的 来 源 ， 我 们 在 这 里 假定 确实 来 自 键入 。 从 键盘 的 数据 寄存 
器 读 出 了 全 部 字符 以 后 ， 状 态 寄存 器 中 的 标志 位 KBD_STAT_OBF 就 变 成 0。 如 果 读 了 10000 次 以 后 





步 处理 ， 其 代码 也 在 drivers/char/pc_keyb.c 中 : 


[keyboard interrupt( ) > handle kbd event( ) > handle keyboard. event( )] 


429 static inline void handle keyboard event (unsigned char scancode) 
430 { 
431 #ifdef CONFIG VT 


432 kbd exists = 1; 

433 if (do acknowledge (scancode)) 

434 handle scancode(scancode, !(scancode & Ox80)); 
435 Hendif 

436 tasklet schedule(&keyboard tasklet); 

431  ] 

438 


键盘 并 不 是 一 种 “只 读 ” 的 设备 ， 对 键盘 也 有 输出 操作。 键盘 在 收 到 数据 后 都 要 送 回 一 个 
KBD_REPLY_ACK《〈 定 义 为 0xfa) 予以 确认 ， 或 送 回 一 个 KBD_REPLY_RESEND《〈 定 义 为 0xfe) 要 求 
A, m CPU 必须 将 其 与 正常 的 输入 区 分 开 来 ,为 了 这 个 目的 , 内 核 中 设 了 一 个 全 局 量 reply_expected， 
每 当 发 送 一 个 字 节 给 键盘 时 就 将 reply expected 设 成 1， 而 在 handle keyboard event( ) 中 若 发 现 
reply_expected 为 1 束 要 把 输入 丢弃 。 这 就 是 这 里 调用 do acknowledge( ) 的 目的 ， 其 代码 在 
drivers/char/pc_keyb.c FP: 


[keyboard_interrupt( ) > handle kbd event( ) > handle_keyboard_event( ) > do_acknowledge( )] 


265 static int do_acknowledge (unsigned char scancode) 

266 { 

267 if (reply expected) { 

268 /* Unfortunately, we must recognise these codes only if we know they 
269 * are known to be valid (i.e., after sending a command), because there 
270 * are some brain-damaged keyboards (yes, FOCUS 9000 again) which have 
271 * keys with such codes : ( 

272 */ 

213 if (scancode == KBD REPLY ACK) | 

2(4 acknowledge = 1; 

215 reply expected - 0; 

276 return 0; 
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277 } else if (scancode == KBD REPLY RESEND) | 
278 resend = 1; 

279 reply expected = 0; 

280 return 0; 

281 } 

282 /* Should not happen... */ 

283 fif 0 

284 printk(KERN DEBUG "keyboard reply expected - got *02xWn^, 
285 scancode) ; 

286 Hendif 

287 } 

288 return l; 

289 } 


对 扫描 码 的 实际 处 理 趾 由 handle scancode( ) 完 成 的 ， 其 代码 在 drivers/char/keyboard.c FP. ix^ ER 
数 比较 长 ， 我 们 分 段 阅读 ; 


[keyboard_interrupt( ) > handle_kbd_event( ) > handle keyboard event( ) > handle, scancode( )] 


201 void handle scancode (unsigned char scancode, int down) 


202 { 

203 unsigned char keycode; 

204 char up flag = down ? 0 : 0200; 

205 char raw mode; 

206 

207 pm access (pm kbd); 

208 

209 do poke blanked console = 1; 

210 tasklet schedule(&console tasklet); 

211 add keyboard randomness(scancode | up flag); 

212 

213 tty = ttytab? ttytab[fg console]: NULL; . 

214 if (tty && (!tty-^driver data)) { 

215 /* 

216 * We touch the tty structure via the the ttytab array 
217 * without knowing whether or not tty is open, which 
218 * is inherently dangerous. We currently rely on that 
219 * fact that console open sets ity >driver data when 
220 * it opens it, and clears it when it closes it. 

221 */ 

222 tty - NULL; 

223 } 

224 kbd = kbd table + fg console; 

220 if ((raw mode = (kbd->kbdmode -= VC RAW))) | 

226 put queue(scancode | up flag); 

221 /* we do not return yet, because we want to maintain 
228 the key down array, so that we have the correct 
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229 values when finishing RAW mode or when changing VT s */ 
230 ] 


232 /* 

233 * Convert scancode to keycode 

234 */ 

235 if (!kbd translate(scancode, &keycode, raw mode)) 
236 return; 


参数 down 为 1 表示 扫描 码 的 最 高 位 为 0， 表示 键 处 于 按 下 状态 。 启 部 量 up flag 实际 上 相当 于 把 
扫描 码 的 最 高 位 抽 了 出 来 。 

这 里 的 pm_access( ) 是 为 电源 管理 留 下 的 … 个 口子 , 其 意图 是 页 人 机 界面 上 长 时 间 没 有 活动 以 后 就 
使 显示 器 进入 省 电 模 式 ， 然 后 一 旦 有 键盘 输入 时 就 恢复 到 正常 运行 。 不 过 ， 在 日 前 的 代码 中 这 是 一 个 
"ER AL. 

我 们 在 第 3 章 中 讲 过 ， 中 断 服务 程序 不 宜 大 长 ， 有 些 可 能 比较 费时 的 操作 应 该 放 在 比较 宽松 的 bh 
PE BBR tasklet 中 完成 。 对 虚拟 控制 台 的 切换 就 是 这 样 … 种 操作 ， 所 以 控制 台 操 作 有 一 个 tasklet， 那 就 
是 console tasklet( )。 这 个 tasklet 是 准备 在 执行 完 键盘 中 断 服务 程序 以 后 ， 在 从 路 断 响应 返回 之 前 执行 
的 ， 这 里 要 通过 tasklet_schedule( )， 将 其 挂 入 相应 的 队列 中 。 这 里 还 调用 了 一 个 函数 
add keyboard randomness( )， 这 起 借 键 盘 输 入 的 随机 性 加 大 系统 中 伪 随 机 数 的 随机 性 ， 读 者 在 前 几 童 
中 也 看 到 过 类 似 的 运用 。 

PC 机 的 控制 台 终 端 由 显示 器 (图 形 卡 ) 和 键盘 两 部 分 构成 ， 所 以 除 tty struct. 数据 结构 外 还 有 个 
kbd struct 数据 结构 。 同 时 ， 物 理 的 显示 器 和 键盘 义 可 有 几 于 多 个 虚拟 终端 ， 通 过 Alt HE GRE RMS 
来 切换 。 显 然 ， 每 个 虚拟 终端 都 应 该 有 自己 的 tty_struct 结构 和 kbd_struct 结构 。 为 此 ， 内 核 中 设立 了 
ttytabl ] 利 kbd_table[ ] 两 个 结构 数组 ,而 全 局 最 fg_console 则 记录 着 当前 的 “前 台 ” 虎 拟 终端 号 。 同 时 ， 
为 便于 后 面 的 处 惠 ， 又 设立 了 tty 和 kbd 两 个 全 局 量 ， 使 它们 分 章 指 向 “前 台 ” 虚拟 终端 的 tty. struct 
结构 和 kbd_struct 结构 。 

如 果 朋 台 终 端的 键 订 工作 十 “原始 ”模式 VC RAW (| 以 通过 系统 调用 ioctl( ) 设 置 )， 那 就 直接 把 
扫描 色 放 到 键盘 的 接收 队 刻 中 ,再 则 就 此 将 扫描 码 转换 成 “ 键 码 ”后 才 放 到 队列 中 。 所 谓 “ 晤 始 ” (raw) 
模式 对 于 不 同 的 层次 有 不 同 的 意义 ， 键 盘 的 原始 模式 有 两 种 ， 其 中 最 原始 的 就 是 VC_LRAW, ERER 
把 扫描 码 送 给 应 用 层 。 

我 们 先 看 转换 扫描 码 的 过 程 kbd_translate( )， 这 个 函数 企 include/asm-i386/keyboard.h 中 定义 成 
pckbd_translate( ): | 


34 #define kbd translate pckbd translate 
这 就 是 PC 键盘 的 键 码 转 换 函 数 ， 其 代码 在 drivers/char/pe, keyb.c 中 : 


[keyboard interrupt( ) > handle kbd event( ) > handlc_keyboard_event( ) > handle_scancode( ) > 
pckbd translate( )] 


291 int pckbd translate (unsigned char scancode, unsigned char *keycode, 
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char raw mode) 
static int prev scancode; 


/* special prefix scancodes.. */ 


scancode == Oxel) { 





if (scancode == 0xe0 | 
prev_scancode = scancode; 
return 0; 


/* OxFF is sent by a few keyboards, ignore it. Ox00 is error */ 
if (scancode == 0x00 | scancode — Oxff) { 

prev scancode - 0; 

rcturn 0; 


scancode &- OxTf; 


if (prev scancode) { 
[xX 
* usually it will be Oxe0, but a Pause key generates 
* el id 45 el 9d c5 when pressed, and nothing when released 


*/ 

if (prev scancode != Oxe0) | 
if (prev scancode -- Oxel && scancode == Oxld) ( 
prev scancode ~ 0x100; 
return 0; 


} else if (prev scancode == 0x100 && scancode == 0x45) { 
*keycode = El PAUSE; 
prev scancode = 0: 
| else | 
#ifdef KBD REPORT UNKN 
if (!raw mode) 


prinLk(KERN INFO "keyboard: unknown el escape sequence\n”) ; 


Bendif 
prev scancode - 0; 
return 0; 
} 
} else { 
prev scancode = 0; 
/ 米 
* The keyboard maintains its own internal caps lock and 
* num lock statuses. In caps lock mode EO AA precedes make 
* code and EO 2A follows break code. ln num lock mode, 
* EO 2A precedes make code and EO AA follows break code. 
* 


We do our own book-keeping, so we will just ignore these. 
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340 * For my keyboard there is no caps lock mode, but there are 
341 * both Shift-L and Shift-R modes. The former mode generates 
342 * EQ 2A / EO AA pairs, the latter EO B6 / EO 36 pairs. 

343 * So, we should also ignore the latter. - aeb@cwi.nl 

344 */ 

345 if (scancode == 0x2a || scancode == 0x36) 

346 return 0; 

347 

348 if (e0_keys[scancode]) 

349 *keycode = e0 keys|scancade] ; 

350 else { 

351 #ifdef KBD REPORT UNKN 

352 if (!raw mode) 

353 printk(KERN INFO “keyboard: unknown scancode e0 %02x\n”, 
354 scancode) ; 

300 Hendif 

356 return 0; 

357 } 

358 } 

359 | else if (scancode >= SC_LIM) { 


Ac. WRT ATIA, WREAK E 0xe0 (或 0xe1)， 那 就 是 扩充 键 的 前 级 码 。 此 于 的 扫描 码 
是 个 序列 ， 所 以 需要 为 之 实现 一 种 “有 限 状 态 机 ”， 全 局 量 prev_scancode 就 是 用 于 这 个 目的 。 这 里 先 
把 前 绥 码 作为 种 状态 保存 在 prev_scancode 中 ,并 返回 0, 表 术 这 个 字 节 应 予 无 径 , 而 handle_scancode( ) 
也 就 随 之 返回 (236 行 )。 此 外 ，0x00 Fil Oxtf AAA MMA, HAAS. 

对 才 扫 描 但 本 身 的 处 理 因 是 合 扩 刘 键 而 异 。 如 果 prev_scancode dE 0， 那 束 说 明 在 此 之 前 的 字 节 是 
ATS. UCN X BO TRUS EA Oxed. 

前 缀 码 Oxel 是 个 特例 ,在 按 下 或 放 开 Pause 键 的 时 候 , BEAT [9] BU HS TSF [Oxel, Oxld, 
0x45] 或 [0xe1，0x1d，0xc5]。 所 以 ， 代 码 中 为 这 个 序列 设置 了 个 中 间 状 态 0x100，316 一 329 行 就 是 对 
这 个 特殊 序列 的 检验 。 如 果 三 个 字 节 都 对 ， 那 就 是 El1_PAUSE， 否 则 就 予以 于 弃 。 除 Pause 键 以 外 , 其 
他 扩充 键 的 前 缀 码 都 起 0xe0。 前 和 面 讲 到 ， 左 右 两 个 Shift 键 并 非 扩 刘 键 ， 但 是 有 些 键盘 在 NumLock 或 
CapsLock RA FEAH Shift 键 时 会 把 它们 当成 扩充 键 。 由 十 Linux 内 核 自 己 维持 各 种 锁定 状态 , 所 
以 丢弃 作为 扩充 键 的 左右 Shift 键 扫描 码 (345~346 17). 

对 十 扩充 键 ， 从 扫描 始 到 键 人 码 的 转换 由 定义 十 drivers/char/pc_keyb.c 的 数组 e0_keys[ ] 提 供 : 


227 static unsigned char e0 keys[128] = | 


228 0, 0, 0, 0, 0; 0, 0, 0, /* 0x00-0x07 */ 
229 0, 0, 0, 0, 0, 0, 0, 0, /* 0x08-0x0f */ 
230 0, 0, 0, 0, 0, 0, 0, Ọ, /* 0x10-0x17 */ 
231 0, 0, 0, 0, EO KPENTER, EO RCTRL, 0, 0, /* Ox18-Oxlf */ 
232 0, 0, 0, 0, 0, 0, O, O, /* 0x20-0x27 */ 
233 0, 0, 0, 0, 0, 0, 0, Ọ, /* 0x28-0x2f */ 
234 0, 0, 0, 0, 0, EO KPSLASH, 0, EO PRSCR, /* 0x30-0x37 */ 
235 EO RALT, 0, 0, 0, 0, EO F13, EO F14, EO HELP, /* Ox38-0x3f */ 
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EO DO, EO F17, O, 


EO UP, EO PGUP, 0, 


EO DOWN, EO PGDN, 
0, 0, 0, EO MSLW, 
0, 0, 0, 0, 0, O, 
0, 0, 0, 0, 0, O, 
0, 0, 0, 0, 0, 0; 
0, 0, 0, 0, 0, O, 


] ; 


0, 0, 0, EO BREAK, EO HOME, 
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/* Ox40-0x47 */ 


EO LEFT, EO OK, EO RIGHT, EO KPMINPLUS, EO END, /* 0x48-Ox4f */ 


EO INS, EO DEL, 0, 0, 0, 0, 
EO MSRW, EO MSTM, 0, O, 


0 
E 
0 
0 


/* 0x50-0x57 */ 
/* 0x58-0x5f */ 
, /* 0x60-0x67 */ 
0 MACRO, /* 0x68-0x6f */ 
i /* Ox70-0xT7 */ 
/* OxTS-Ox Tf */ 


Glan, 4i Ctrl 键 的 扫描 码 为 [0xe0, 0x1d]， 所 以 用 Oxld 为 下 标 从 上 表 中 得 得 其 键 码 E0_RCTRL。 又 如 


PageUp 键 的 扫描 但 为 [0xe0, 0x49]， 所 以 用 0x49 A Fs Me]! Aree HRS E0_PGUP。 这 些 键 码 也 都 定 
X H8] — X ff (drivers/char/pc. keyb.c)'l!: 


131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 


window 软件 再 糊 涂 。 这 也 部 分 地 回答 了 读者 可 能 会 有 的 疑问 ， 就 是 为 什么 需要 “ 键 码 ”。 


/* 


* Translation of escaped scancodes to keycodes. 
* This 1s now user-settable. 


* 


* 
* 
* 
* 
*/ 


#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
&define 
#define 
#define 
Rdefine 
Hdefine 


#define 


EO KPENTER 96 


EQ RCTRL 


E0 KPSLASH 


EO PRSCR 
EO RALT 
EO BREAK 
EO HOME 
EO UP 

EO PGUP 
EO LEFT 
EO RIGHT 
EO END 
EO. DOWN 
EO PGDN 
EO INS 
EO DEL 


E1 PAUSE 


97 

98 

99 

100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 


119 


The keycodes 1-88,96-111,119 are fairly standard, and 
should probably not be changed - changing might confuse X. 
X also interprets scancode Ox5d (KEY Begin). 


For 1-88 keycode equals scancode. 


/* (control-pause) */ 


数组 eO. keys ] 的 内 容 是 可 以 通过 系统 调用 iocth( ) 设 置 的， 但 是 这 里 的 注释 说 改 了 以 后 可 能 会 使 X 


再 看 不 带 前 组 的 扫描 码 ， 即 非 扩 充 键 的 扫描 码 。 


.379 . 


Linux 内 核 源 代码 情景 分 析 〈 下 员 ) 


{keyboard_interrupt( ) > handle kbd event( ) > handle keyboard .event( ) > handle scancode( ) 
> pekbd translate( )] 


359 } else if (scancode >= SC LIM) { 

360 /* This happens with the FOCUS 9000 keyboard 

361 Its keys PF1..PF12 are reported to generate 

362 55 73 77 78 79 Ta Tb 7c 74 Te 6d 6f 

363 Moreover, unless repeated, they do not gencrate 

364 key-down events, so we have to zero up flag below */ 
365 /* Also, Japanese 86/106 keyboards are reported to 

366 generate 0x73 and Ox7d for \ - and \ | respectively. */ 
367 /* Also, some Brazilian keyboard is reported to produce 
368 0x73 and Ox7e for X ? and KP-dot, respectively. */ 
369 

370 *keycode = high keys[scancode - SC LIM]; 

371 

372 if (I!*keycode) { 

373 if (!raw_mode) { 

374 #ifdef KBD REPORT UNKN 

375 printk (KERN INFO "keyboard: unrecognized scancode (*02x)" 
376 ^ — ignored\n”, scancode) ， 

377 #endif 

378 } 

379 return 0; 

380 } 

381 } else 

382 *keycode = scancode; 

383 return l; 

384 } 


常数 SC LIM 的 值 为 89， 即 0x59。 数 值 小 于 SC LIM 的 扫描 码 与 键 码 相同 而 盛 需 转换 (382 47); 
否则 便 由 数组 high_keys[ ] 提 供 转换 ， 转 换 时 以 (scancode - SC_LIM) 为 下 标 。 这 个 数组 的 定义 也 在 
drivers/char/pc_keyb.c "P: 


194 static unsigned char high keys[128 - SC LIM] = { 


195 RGN1, RGN2, RGN3, RGN4, 0, 0, 0, /* Ox59-Ox5f */ 
196 0, 0, 0, 0, 0, 0, 0, 0, /* 0x60 0x67 */ 
197 0, 0, 0, 0, 0, FOCUS PFil, 0, FOCUS_PF12, /* Ox68-Ox6f */ 
198 0, 0, 0, FOCUS PF2, FOCUS_PF9, 0, 0, FOCUS_PF3, /* Ox70-0x77 */ 
199 FOCUS PF4, FOCUS PF5, FOCUS PF6, FOCUS PFT, /* Ox78-Ox7b */ 
200 FOCUS PF8, JAP 86, FOCUS PFIO, 0 /* Ox7c-Ox7f */ 
201 l; 


这 个 范围 中 的 大 多 是 功能 键 ， 其 键 码 的 数值 在 89 一 127 YUE. W FOCUS_PF2 就 是 PF2 键 的 键 

码 CFOCUS PF1 的 数值 为 853， 与 扫描 码 相 同 ， 所 以 不 在 这 个 数组 中 )。 坝 在 可 以 比较 宪 整 地 回答 为 什 

么 需要 将 扫描 码 转 换 成 键 但 的 问题 了 。 带 前 缕 0xe0 和 不 带 前 缀 的 扫描 码 占据 着 两 块 128 字 节 (实际 上 
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只 有 126 学 节 ) 的 区 间 ， 但 是 实际 上 两 个 区 间 都 是 很 “ 稀 下 ”的 。 就 键盘 的 大 小 来 说 ， 现 在 还 在 120 键 
以 下 ， 如 果 一 键 一 码 则 只 需要 120 字 节 以 下 ， 完 全 可 以 合并 到 同一 个 126 字 节 的 区 癌 中 去 。 可 是 ， 又 
不 宜 简 单 地 把 前 缀 丢 齐 了 事 ， 因 为 那样 至 少 会 造成 功能 键 与 普通 字符 键 穿 搬 在 一 起 而 带 来 不 便 。 比 鲍 
好 的 办 法 当然 是 统一 编排 下、 定义 出 -一 个 标准 的 键 码 ， 使 功能 键 的 代码 者 集中 在 起， 例如 上 上 述 的 
9%6 一 111。 这 样 ， 不 管 吓 PC 键盘 也 好 、Macintoshi 键盘 也 好 ， 一 旦 转换 到 键 码 就 都 TE, SE BR SÉ 
杏 无 关 了 。 这 里 还 要 指出 ， 键 翁 仍然 只 是 一 种 中 性 的 代码 ， 而 与 其 体 的 语言 义 字 尤 六 。 
回 到 handle. scancode( ) 的 代码 中 继续 往 下 看 (drivers/char/Keyboard.c): 





[keyboard, interrupt( ) > handle kbd event( ) > handle keyboard event( ) > handle scancode( )] 


238 /* 

239 * At this point the variable keycode’ contains the keycode. 
240 * Note: the keycode must not be 0 (++Geert: on m68k 0 is valid). 
241 * We keep track of the up/down status of the key, and 

242 * return the keycode if in MEDIUMRAW mode. 

243 */ 

244 

245 if (up flag) { 

246 rep = 0; 

247 if(!test and clear_bit (keycode, key_down)) 

248 up. flag = kbd_unexpected_up (keycode) ; 

249 } else 

250 rep = test and set bit (keycode, key down); 

251 

202 #ifdef CONFIG MAGIC SYSRQ /* Handle the SysRq Hack */ 
253 if (keycode -- SYSRQ KEY) | 

254 sysrq pressed = !up flag; 

255 return; 

256 } else if (sysrq pressed) | 

257 if (tup flag) { 

258 handle sysrq(kbd sysrq xlate[keycode], kbd pt regs, kbd, tty); 
259 return; 

260 j 

261 } 

262 Bendif 

263 

264 if (kbd->kbdmode -- VC MEDIUMRAW) | 

265 /* soon keycodes will require more than one byte */ 
266 put queue(keycode + up flag); 

267 raw mode = 1; /* Most key classes will be ignored */ 
268 } 

269 


前 面 讲 过 ， 局 部 量 up flag BUT ZH AH DY Eh T € P(down)d AZ BUT(upyWUes. IAEA. PEE 
KPBS KRATRAR, {ELAR AH BT BE Td IL a TRE. RPA — I SII 
图 key down 来 记录 各 个 键 的 状态 。 如 果 读 入 的 扫描 码 表 明 相 应 的 键 处 于 按 下 状态 ， 那 就 把 位 图 
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key down 中 的 对 应 位 设 成 1; UE, WRK -位 原来 就 已 经 是 1， 那 就 说 明 使 用 者 按 下 这 个 键 不 放 ， 
所 以 键盘 开始 了 自动 重复 功能 (250 行 )。 反 之 ， 如 果 读 入 的 扫描 码 表 明 相 应 的 键 处 于 放 开 状态 ， 那 就 把 
位 图 中 的 对 应 位 设 成 0; 如 果 原 来 就 是 0， 就 说 明 至 少 是 漏 了 一 个 扫描 码 ， 所 以 说 是 
kbd_unexpected_up( )。 

作为 编译 选择 项 ， 半 SysRq 键 可 以 定义 一 些 特殊 的 操作 ， 不 过 我 们 在 这 里 不 感 兴趣 。 

如 果 键 盘 的 运行 模式 是 VC_MEDIUMRAW， 或 者 说 是 “半生 半熟 "、“ 半 哲 始 ”， 那 么 至 此 已 可 以 
把 转换 后 的 键 码 放 入 接收 队列 了 (266 行 )。 这 样 ， 如 果 键 盘 运 行 于 两 种 诛 始 模式 之 …， 应 用 进程 从 键盘 
(控制 台 ) 读 到 的 就 是 打 描 码 或 键 码 。 在 前 一 节 中 讲 到 的 伪 终 端 加 窗口 管理 进程 的 系统 结构 中 ， 只 有 窗口 
管理 进程 才 会 直接 从 键盘 读 ， 所 以 可 以 在 这 个 进程 的 软件 中 处 理 从 扫描 伍 或 键 但 向 具体 诸 言 文字 (如 汉 
字 ) 编 码 的 转换 。 当 然 ， 也 可 以 不 让 键盘 运行 十 原始 模式 ， 和 出 在 内 核 中 完成 这 最 后 一 步 转换 。 读 者 还 应 
注意 ， 这 蜂 所 说 的 原始 模式 是 对 最 底层 的 键盘 驱动 胡言， 区别 在 于 是 否 把 扫描 但 转换 成 目标 文字 的 代 
TA ASCID)， 这 与 前 面 在 “终端 ”一 层 上 的 非 规范 模式 不 同 ， 那 种 “原始 ”模式 后 面 我们 还 要 讲 到 。 

我 们 骨 往 下 看 对 键盘 输入 的 最 后 一 步 转换 ， 这 一 次 是 要 转换 成 ASCII 码 (或 其 他 拼音 文字 的 代码 ， 
下 同 )。 在 正常 模式 下 运行 的 键盘 要 到 把 输入 转换 成 ASCII 码 以 后 才 放 入 接收 队列 ， 有 的 则 根本 不 放 入 
接收 队列 。 


[keyboard_interrupt( ) > handle kbd event( ) > handle_keyboard_event( ) > handle_scancode( )] 


270 /* 

271 * Small change in philosophy: earlier we defined repetition by 
272 * rep = keycode == prev keycode; 

273 * prev keycode = keycode; 

214 * but now by the fact that the depressed key was down already. 
215 * Does this ever make a difference? Yes. 

216 */ 

277 

278 /* 

279 * Repeat a key only if the input buffers are empty or the 

280 * characters get echoed locally. This makes key repeat usable 
281 * with slow applications and under heavy loads. 

282 */ 

283 if (lrep || 

284 (vc kbd mode(kbd, VC REPEAT) && tty && 

285 (L ECHO (tty) || (tty->driver. chars in buffer(tty) == 0))) { 
286 u short keysym; 

287 u_char type; 

288 

289 /* the XOR below used to be an OR */ 

290 int shift final = (shift state | kbd->slockstate) ` 

291 kbd->lockstate; 

292 ushort *key map = key maps[shift final]; 

293 

294 if (key map != NULL) { 

295 keysym = key map[keycode] ; 
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296 type = KTYP(keysym) ; 

207 

298 if (type >= Oxf0) { 

299 type -= Oxf0; 

300 if (raw mode && ! (TYPES ALLOWED IN RAW MODE & (1 << type))) 
301 return; 

302 if (type == KT LETTER) { 

303 type - KT LATIN; 

304 if (vc kbd led(kbd, VC CAPSLOCK)) { 

305 key map = key maps[shift final ^ (1<<KG_SHIFT)]; 
306 if (key map) 

307 keysym = key map[keycode]; 

308 } 

309 j 

310 (key handler[type]) (keysym & Oxff, up flag); 
3ll if (type !- KT SLOCK) 

312 kbd->slockstate = 0; 

313 } else { 

314 /* maybe only if (kbd->kbdmode == VC UNICODE) ? */ 
315 if (lup flag && !raw mode) 

316 to utf8(keysym) ; 

317 ) 

318 ) else { 

319 /* maybe beep? */ 

320 /* we have at least to update shift state */ 

321 Hif 1 /* how? two almost equivalent choices follow */ 
322 compute shiftstate( ); 

323 kbd->slockstate = 0; /* play it safe */ 

324 Helse 

329 Hendif 

330 } 

331 } 

332 } 


对 十 正常 状态 下 产生 的 键 担 输入 ， 即 rep 为 0 时 ， 这 一 段 代码 的 执行 是 无 条 件 的。 而 对 于 因 按 下 
键 不 放 而 白 动 重复 产生 的 键盘 输入 ， 则 是 有 条 件 的 ， 条 件 是 键 玲 运行 二 VC REPEAT R, HRA 
动 重复 ， 并 卫 终 端 运行 于 “echo” 模 式 ， 或 者 输入 缓冲 区 已 经 空 了 (以 前 的 输入 都 已 被 赎 走 )。 如 果 不 满 
EHS, CAMARRLH TI. 

从 键 码 向 日 标 码 keysym 的 转换 也 是 通过 数组 实现 的 ， 以 键 码 的 数值 为 下 标 ， 相 应 的 元 素 就 给 出 日 
标 码 。 由 于 键 码 的 数值 不 超过 127， 所 以 数组 的 大 小 为 128。 数 组 的 类 型 为 16 位 尤 符号 短 整数 ， 其 高 8 
位 表示 键 的 类 型 ， 低 8 位 则 为 具体 的 代码 。Linux 内 核 的 “ 寻 语 ”是 英语 ， 所 以 目标 码 基 本 上 是 ASCIT, 
不 过 也 可 以 通过 系统 调用 ioctl( )“ 下 载 ” 其 他 码 表 。 不 过 ， 从 键 码 向 日 标 码 的 园 换 并 不 是 个 数组 就 
可 完成 的 ， 因 为 按 下 同一 个 键 在 不 同 的 情况 下 应 产生 出 不 同 的 代码 。 例如， 单独 按 下 “A” 刍 时 应 产生 
“A” 的 代码 0x41， 而 共同 时 按 下 Shift 键 ( 更 确切 地 说 是 在 此 之 前 按 下 Shift BE. FFA RRA Pm 
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生 “a” 的 代码 0x61。 除 此 乙 外 ， 还 得 考虑 Ctrl 键 等 其他 辅助 键 ， 所 以 实际 上 需要 好 几 个 这 样 的 数组 。 
那么 ,有 几 个 辅助 键 影响 有 日 标 码 的 产生 呢 ? 一般 而 二 有 4 个 ， 旭 Alt 键 、Ctrl 键 、Altgr 键 (右边 的 Alt 
键 ) 以 及 Shift 键 。 这 些 辅 助 键 还 可 以 按 一 定 的 规则 组 合 ，~… 起 来 影响 日 标 代码 的 产生 。 内 核 代码 中 有 
个 全 局 量 shift_state， 以 位 图 的 形式 记录 当 胸 处 丁 按 下 状态 的 辅助 键 ， 其 高 28 位 均 为 0， 低 4 位 则 用 于 
4 个 辅助 键 ， 依 次 为 Alt、Ctrl、Altgr、Shift。 这 样 ， 理 论 上 上 HAULE 16 个 不 同 的 色 表 ， 不 过 有 些 组 
合 实际 上 并 不 使 用 ， 所 以 实际 使 用 的 共 丰 7 MiK. Alt, drivers/char/defkeymap.c 中 定义 了 一 个 指针 
数组 key_maps[ ]， 以 shift_state 为 下 标 惑 可 以 找到 当前 适用 的 佬 表 。 


141 ushort *key_maps [MAX NR KEYMAPS] = | 


142 plain map, shift map, altgr map, 0, 
143 ctr] map, shift ctrl map, 0, 0, 
144 alt map, 0, 0, O, 

145 ctrl alt map, 0 

146 Fi 


PIG. HA PEMBE shift state 为 0， 所 以 适用 的 码 表 为 plain_map[ ]: 同时 按 下 Shift 
键 时 shift state 为 1， 所 以 适用 的 代表 为 shift map[ ]， 同 时 按 下 Alt BEAD Ctrl 键 (如 Alt-CtrI-B) 时 
shift. state 为 12， 所 以 适用 的 馈 表 为 ctrl_alt_map[ ]。 上 只 体 的 码 表 都 在 drivers/char/defkeymap.c 中 ， 这 个 
文件 是 出 工 其 生成 的 ,编译 内 核 代 码 时 会 根据 一 个 码 表 描 述 文件 drivers/char/defkeymap.map 日 动 生成 。 
系统 运行 时 也 可 以 通过 系统 洞 用 ioctl( ) 下 载 、 替 换 这 些 码 表 。 了 系统 小 有 个 工具 /usrbinmloadkeys， 可 以 
在 运行 时 生成 但 表 并 电 下 载 ， 达 到 动态 地 改变 码 表 ( 从 而 改变 日 标语 兰 ) 的 月 的 。 

此 外 ， 有 些 特 殊 的 键盘 上 有 上 所 谓 “sticky” 轴 助 键 ， 按 一 下 如 将 键 横 锁定 在 某 种 辅助 键 状态 
(kbd->slockstate 变 成 1 )， 就 好 像 老 是 按 下 Shift 键 不 放样 ， 再 按 一 下 就 又 加 到 平常 状态 。 人 有 的 键 查 上 
还 中 以 将 辅助 键 的 作用 反 转 (kbd->lockstate 为 1). MEL, fif 290—291 行 根据 当前 的 shift state 和 
kbd->slockstate 及 kbd->lockstate 计算 出 个 下 标 shift_final， 然 后 用 这 个 下 标 在 key_maps[ ] 中 找到 适 


代 但 (295 行 )。 
由 于 篇 幅 的 关系 ， 我 们 不 能 在 这 里 列 出 所 有 7 个 码 表 ， 而 只 刻 出 第 - -个 码 表 plain_mapf ]， 让 读者 
有 个 具体 的 印象 (drivers/chardefkeymap.c): 


8 u short plain map[NR KEYS] - { 


9 Oxf200, OxfOlb, Oxf031, Oxf032, Oxf033, Oxf034, Oxf035, Oxf036, 
10 Oxf037, Oxf038, Oxf039, Oxf030, Oxf02d, OxfO3d, OxfO7F, Oxf009, 
1i Oxfb71, Oxfb77, Oxfb65, Oxfb72, Oxfb74, Oxfb79, Oxfb75, Oxfb69, 
12 Oxfb6f, Oxfb70, OxfO05b, OxfO05d, Oxf201, Oxf702, Oxfb61, Oxfb73, 
13 Oxfb64, Oxfb66, Oxfb67, Oxfb68, Oxfb6a, Oxfb6b, Oxfb6c, OxfO3b, 
14 Oxf027, Oxf060, Oxf700, OxfO05c, Oxfb7a, Oxfb78, Oxfb63, Oxfb76, 
15 Oxfb62, Oxfb6e, Oxfb6d, Oxf02c, Oxf02e, OxfO2L, Oxf700, Oxf30c, 
16 Oxf703, Oxf020, Oxf207, Oxf100, OxflO1, Oxfl102, Oxfl103, Oxfl04, 
17 Oxf105, Oxf106, Oxf107, Oxf108, Oxf109, Oxf208, Oxf209, Oxf307, 
18 Oxf308, Oxf309, Oxf30b, Ox[304, Oxf305, Oxf306, Oxf30a, Oxf301, 
I9 Oxf302, 0x1303, Oxf300, Oxf310, Oxf206, Oxf200, Oxf03c, OxfiOa, 
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20 Oxf10b, Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, 
21 Oxf30e, Oxf702, Oxf30d, OxfOic, Oxf701, Oxf205, Oxfl114, Oxf603, 
22 Oxf118, Oxf601, Oxf602, Oxf117, Oxf600, Oxf119, Oxfll5, Oxfl10, 
23 Oxflia, OxflOc, OxflOd, Oxfllb, Oxflic, Oxfil0, Oxf311, Oxf11d, 
24 Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, 
25 ie 
例如 ，“A” 键 的 打 描 码 为 0xle， 因 而 键 码 也 是 0xle (因为 小 于 89) ， 以 此 为 下 标 从 这 个 数组 中 


读 得 其 代码 为 0xfb61。 代 码 的 高 8 位 代表 类 型 ， 低 8 位 妈 为 字符 “a” 的 代码 Qx61。 当 高 8 位 的 数值 
人 于 等 于 0xf0 时 ， 其 数值 与 0xf0 之 差 表 示 键 的 类 型 ， 小 杆 0xf0 HARRAH Unicode 的 UTF-8 编码 。 
我 们 先 看 键 的 类 型 ，include/linux/keyboard.h PRENT 13 种 类 型 : 


35 #define KT LATIN 0 /* we depend on this being zero */ 
36 Hdefine KT LETTER 11 /* symbol that can be acted upon by CapsLock */ 
37 #define KT FN 1 

38 #dcfine KT SPEC 2 

39 Hdefine KT PAD 3 

40 H#define KT DEAD 4 

41 #define KT CONS 5 

42 #define KT CUR 6 

43 #define KT SHIFT 7 

44 #define KT META 8 

45 #define KT ASCII 9 

46 #define KT LOCK 10 

47 define KT SLOCK 12 


这 里 KT LATIN 表示 普通 吕 打 印字 符 ，KT_LETTER XE BRL KT FN 为 功能 键 ，KT_SPEC 为 
eR St, KT PAD 为 “ 剧 键 盘 ? 或 “数字 键盘 ”上 的 键 , KT_SHIFT 表示 辅助 键 , 等 等 .注意 这 里 KT_ASCII 
并 不 表示 “ASCH 码 ” 而 是 表示 用 来 输入 十 六 进 制 数字 。 还 有 ，KT_DEAD 现在 已 经 不 用 了 ， 只 有 是 为 
HAMRA. bn "A" BIKEN Oxfb, Arel KT. LETTER. 

回 到 handle, scancode( ) 的 代 僻 由， 宏 操 作 KTYP( ) 从 目标 码 中 皮 出 其 而 8 位 类 型 码 。 如果 大 于 等 于 
OxfO 即 为 普通 字符 (299~312 行 )。 对 于 原始 模式 ， 输 入 的 扫描 乌 或 键 码 已 放 入 接收 队列 ， 但 走 对 共 些 
键 的 按 下 或 放 开 也 还 需 昌 一 些 附加 操作 ， 例 如 Shift 键 的 状态 就 需要 反映 在 shift state 中 。 这 里 的 常数 
TYPES. ALLOWED IN. RAW MODE 定义 于 drivers/char/keyboard.c: 





121 /* Key types processed even in raw modes */ 
122 
123 Hdefine TYPES ALLOWED TN RAW MODE ((1 «€ KT SPEC) | (1 << KT SHIFT)) 


Xo. MEEA, oof KT SPEC 和 KT. SHIFT AWK RE BET EE, mH 
他 的 就 不 需要 了 。 
至 于 正常 的 键盘 操作 ， 滥 就 全 孝 要 经 过 进步 的 处 埋 了 。 其 中 有 些 输入 要 人 在 经 过 处 理 以 后 族 入 接 
收 趴 列 ， 有 的 (如 Shift 键 ) 则 处 理 以 后 将 其 竺 弃 。 次 先 ， 字 母 类 (KT_LETTER) 的 输入 与 普通 可 打印 字符 
(KT_LATIN) 的 区 别 仅 在 于 CapsLock 键 的 作用 ， 历 以 这 申 把 KT. LETTER. &HÉ& 5k, KT_LATIN， 并 且 根 
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据 当 前 键盘 上 的 CapsLock 发 光 二 极 管 (Led) 是 否 亮 着 决定 是 否 将 Shift 键 的 作用 反 相 。 
然后 ， 就 要 根据 键 的 类 型 调用 相应 的 处 理 程 序 了 。 这 里 的 key_handler[ ] 是 个 以 类 型 为 下 标的 函数 
指针 数组 ， 定 义 于 drivers/char/keyboard.c: 


115 static k hand key handler[16] = { 


116 do self, do fn, do spec, do pad, do dead, do cons, do cur, do shift, 
117 do meta, do ascii, do lock, do lowercase, do slock, do dead2, 

118 do ignore, do ignore 

119 }; 


数组 的 大 小 是 16， 但 是 前 面 实际 上 只 定义 了 13 种 类 型 ， 所 以 最 后 3 个 函数 指针 是 不 可 能 用 到 的 。 
我 们 先 看 看 对 KT_LATIN， 即 普通 可 打印 字符 的 处 理 ， 函 数 do_self( ) 的 代码 在 drivers/char/keyboard.c 
中 : 


542 static void do _ self (unsigned char value, char up flag) 


543 — | 

544 if (up flag) 

545 return; /* no action, if this is a key release */ 
546 

547 if (diacr) 

548 value - handle diacr(value); 
549 

550 if (dead key next) { 

551 dead key next = 0; 

552 diacr - value; 

593 return; 

554 } 

555 

556 put queue(value); 

557. } 


H5. up flag JE 0 EIAM ERHO TERT AE, BT EMT ASHE, EAE 
弃 就 是 了 。 否 则 ， 如 果 全 局 量 diacr 和 dead key next 都 是 0， 半 就 是 -个 止 常 的 输入 字符 了 ， 所 以 通 
过 put_queue( ) 把 这 个 字符 放 在 接收 队列 中 。 

那么 ，diacr 和 dead key next 是 下 什么 用 的 呢 ? 诛 米 ， 在 许多 拼音 文字 中 都 有 所 谓 “accent” 字 符 
(也 称 为 “diacritical ”字符 )， 例 如 “A” 项 上 加 个 小 奖 就 是 一 个 。 输 入 这 个 特殊 字符 时 先 要 同时 按 一 下 
Ctrl 和“.” 键 ， 然后 按 “o” 键 ， 最 后 按 “A” 键 。 由 于 这 是个 序列 ， 所 以 又 得 要 实现 一 个 “有 限 状 
ASH”, if diacr 和 dead, key. next 就 是 用 十 这 个 昌 的 。 


没有 你 出 ) 读 出 目标 但 为 0xf20e， 其 类 型 为 KT_SPEC。 十 是 ， 从 key_handlerf ] 中 找到 晃 数 指针 为 
do_spec( )， 其 代码 也 在 drivers/char/keyboard.c P: 


525 static void do spec(unsigned char value, char up flag) 
5206 { 
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527 if (up flag) 

528 return; 

529 if (value >= SIZE(spec fn table)) 

530 return; 

531 if ((kbd->kbdmode == VC RAW || kbd->kbdmode == VC MEDIUMRAW) && 
532 ! (SPECIALS ALLOWED IN RAW MODE & (1 «€ value))) 

533 return; 

534 spec fn table[valuel( ); 

535  ] 


长 话 短 说 ， 这 里 最 后 又 通过 同一 文件 (keyboard.c) 中 的 函数 指针 数组 spec. fn. table[ ] 执 行 一 个 函数 : 


132 static void fnp spec fn table[ | = { 


133 do null, enter, show ptregs, show mem, 

134 show state, send intr,  lastcons, caps toggle, 

135 num, hold, scroll forw, scro]l back, 

136 boot it, caps on, compose, SAK, 

IST decr console, incr console, spawn console, bare num 
138 F3 


出 于 目标 码 中 的 低 8 位 为 0x0e， 所 以 执行 的 是 compose( )， 还 是 在 同一 文件 中 : 


488 static void compose (void) 


489 { 
490 dead key next = 1; 
491 j 


这 样 ， 当 输入 “o” BEIT, TE do self( ) 中 就 因 dead key next 为 1 而 将 该 字符 的 代码 存放 在 diacr 
中 ，dead_key_next 则 又 清 成 0。 接 着 ， 当 输入 “A” 键 时 则 因 diacr 非 0 而 调用 handle diacr(), HAMS 
仍 在 drivers/char/keyboard.c 中 : 


589 /* 

590 * We have a combining character DIACR here, followed by the character CH. 
591 * [f the combination occurs in the table, return the corresponding value. 
592 * Otherwise, if CH is a space or equals DIACR, return DIACR. 

593 * Otherwise, conclude that DIACR was not combining after all, 

594 * queue it and return CH. 

595 */ 

596 unsigned char handle_diacr (unsigned char ch) 

597 { 

598 int d = diacr; 

599 int i; 

600 

601 diacr = 0; 

602 

603 for (i = 0: i < accent table_size; i++) { 
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604 if (accent table[i].diacr == d && accent table[i].baso == ch) 
605 return accent table[i].result; 

606 j 

607 

-608 if (ch ==’ ' || ch = d) 

609 return d; 

610 

611 put_queue (d) ; 

612 return ch; 

613] 


BES CRE CE PEER AS ASTU, AREER RTP SEES HEISE TET ORO, tema Sey 
都 在 “个 数组 accent_table[ ] 中 ， 所 以 这 里 搜索 这 个 数组 并 返回 结果 (605 行 )。 返 回 的 合成 字符 则 在 
do. self( ) 中 放 入 接收 队列 。 

我 们 在 这 里 当然 不 可 能 逐 “去 读 key_handler[ ] 中 那些 消 数 的 代码 ， 读 者 可 以 自己 阅读 。 

回 伸 handle scancode( ) 的 代码 中 ， 我 们 已 经 看 了 类 型 码 大 十 等 于 0xf0 时 的 处 理 。 前 面 我 们 也 提 到 
过 , 如 果 类 型 码 小 于 0xf0 就 表示 采用 Unicode 的 UTF-8 编码 ,为 方 使 阅读 , 我 们 再 把 handle_scancade( ) 
中 有 关 的 儿 行列 出 丁 下 : 


313 } else { 

314 /* maybe only if (kbd-^kbdmode == VC UNICODE) ? */ 
315 if (tup flag && !raw mode) 

316 to utf8(keysym) ; 

317 } 


这 里 执行 to_utf8( ) 的 条 件 是 不 襄 自 明 的 ，to_utf8( ) 的 代码 让 drivers/char/keyboard.c 中 : 


[keyboard_interrupt( ) > handle_kbd_event( ) > handle_keyboard_event( ) > handle_scancode( ) > to utf8( )] 


171 void to utf8(ushort c) | 


172 if (c < 0x80) 

173 put queue(c); /*  Qekklokick */ 

174 else if (c < 0x800) | 

175 put queue(O0xcO | (c >> 6)); /* 110 lOxebbkek  x/ 
176 put queue(0x80 | (c & Ox3£)); 

177 } else f 

178 put_queue (0xe0 | (c >> 12)): /* LL LO 1 Qo lOXeekellok %/ 
179 put_queue (0x80 | ((c >> 6) & Ox3f));: 

180 put queue(0x80 ; (c & Ox3f)): 

181 } 

182 /* UTF-8 is defined for words of up to 31 bits, 

183 but we need only 16 bits here */ 

184  ] 


这 段 代码 正好 可 以 让 读者 复习 和 消化 前 节 中 讲 到 的 UTF-8 编码 。 注 意 这 里 没有 对 各 种 键 作 分 类 
处 理 ， 而 只 是 把 转换 成 的 代码 依次 放 入 接收 队列 ， 在 这 方面 有 点 像 原始 模式 。 此 外 ， 这 里 的 Unicode 
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仍 是 一 键 一 码 ， 所 以 这 些 程 序 只 能 用 于 拼音 义 字 。 

再 回 到 handle_scancode( ) 的 代 人 码 中 ,最 后 还 有 一 种 可 能 ,就 是 Key_maps[ ] 中 不 存在 由 当前 shift, final 
决定 的 码 表 (318~330 行 )。 既 然 没 有 码 表 ， 那 就 只 好 把 输入 丢弃 。 不 过 ， 前 面 已 经 根据 最 新 的 输入 改 
变 了 当前 的 位 图 key down[ ]， 也 许 最 新 的 输入 恰好 是 辅助 刍 的 状态 变化 ， 因 而 也 应 该 反映 人 在 位 图 
shift. state 中 ,所 以 要 根据 位 图 key_down[ ] 的 内 容 计 算出 最 新 的 shift, state ££ {11 FFA Ly handle scancode( ) 
中 有 关 的 几 行 如 下 : 





322 compute shiftstate( ); 
323 kbd->slockstate = 0; /* play it safe */ 


这 里 compute, shiftstate( ) 的 代码 在 drivers/char/keyboard.c 中 : 


[keyboard_interrupt( ) > handle_kbd_event( ) > bandle keyboard event( ) > handle_scancode( ) > 
compute_shiftstate( )] 


137 /* called after returning from RAW mode or when changing consoles - 

738 recompute k down[ ] and shift state from key down[ ] */ 

139 /* maybe called when keymap is undefined, so that shiftkey release is seen */ 
140 | void compute shiftstate (void) 


141 { 

742 int i, j, k, sym, val; 

743 

744 shift_state = 0; 

745 for (i=0; i < SIZE(k down); i^!) 

746 k down[il = 0; 

741 

148 for(i-0; i < SIZE(key down); i++) 

149 if(key down[i] { /* skip this word if not a single bit on */ 
750 k = i*BTTS PER LONG; 

751 for (j=0; j<BITS PER LONG; j++, k++) 
752 if(test_bit(k, key down) { 

753 sym = U(plain map[k]) ; 

754 if (KTYP (sym) == KT SHIFT || KTYP(sym -= KT. SLOCK) | 
155 val = KVAL (sym ; 

756 if (val -= KVAL(K CAPSSHITT)) 
151 val - KVAL(K SHIFT) ; 

758 k down[val]++; 

759 shift state i= (lval); 

760 } 

761 } 

762 } 

163  ] 


这 里 依次 扫描 位 图 key. down] j 中 的 每 一 位 , 对 当前 处 于 按 下 状态 的 每 一 个 键 玫 从 plain. map PiE 
出 其 代码 ， 看 看 是 什么 类 卉 。 如 果 是 辅助 键 或 锁定 键 则 将 shift state 中 的 相应 位 设 成 1。 
完成 了 handle_scancode( ) 的 执行 以 后 ， 对 键盘 路 断 的 服务 也 义 基 本 上 完成 了 。 
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是 一 个 字 节 ， 但 是 在 有 些 情 况 下 也 品 能 是 个 字 节 序列 。 然 而 ， 有 一 点 是 共同 的 ， 几 是 接收 的 代码 都 通 
过 put_queue( ) 逐 个 字 节 地 放 入 “前 台 ” 键 襟 的 接收 队列 。 这 个 函数 的 代码 在 drivers/char/keyboard.c 中 ， 





335 void put_queue (int ch) 


336 { 

337 wake up(&keypress wait); 

338 if (tty) d 

339 tty insert flip char(tty, ch, 0); 
340 con schedule flip(tty); 

341 } 

342 } 


对 于 从 键盘 接收 到 而 未 经 进步 加 工 的 宁 符 ， 先 放 在 tty_struct 结 构 内 的 -个 所 谓 “ftip 组 冲 区 ”中 
(include/linux/tty. flip.h): 


[put queue( ) > tty insert flip char( )] 


10 INLINE void tty insert flip char (struct tty struct *tty, 
11 unsigned char ch, char flag) 

12 { 

13 if (tty->flip. count < TTY FLIPBUF SIZE) | 

14 tty-»flip. count**; 

15 *tty »flip.flag buf ptr!' = flag; 

16 *Liy-»flip.char buf _ ptr++ = ch; 

17 ] 

18  ] 


在 中 断 服务 的 过 程 中 ，CPU 对 从 键盘 谈 入 的 数据 进行 了 - 些 处 埋 和 转换 。 相 对 而 言 ， 这 些 处 理 和 
转换 邦 是 很 简单 的 ， 可 以 在 委 知 的 时 间 内 完成 。 可 是 ， 对 十 产生 输入 字符 的 事件 来 说 ， 己 经 进行 的 这 
些 处 理 偿 只 是 “万 里 长 征 走 完了 第 一 步 ?， 接 下 去 偿 要 进行 不 少 处理 ， 山 且 那 些 处 理 就 比较 费时 间 了 。 
我 们 在 第 3 草 中 讲 到 过 ， 对 于 这 种 本 应 在 中 断 服 务 程 序 中 进行 ， 可 是 又 比较 费时 间 的 操作 应 该 放 在 bh 
函数 中 或 者 作为 tasklet 在 比较 宽松 (允许 中 有 断 ) 的 条 件 下 执行 。 所以， 将 字符 放 入 flip 缓冲 区 以 后 ,还 要 
通过 con schedule flip( ) 调 度 控制 台 终 端的 tasklet 运行 (include/linux/kbd_kern.h)。 控 制 台 终端 的 tasklet 
起 console_tasklet( )。 所 谓 凋 度 其 运行 ， 就 是 将 个 指 站 这 个 函数 的 指针 通过 - 个 结构 挂 入 tasklet 的 执 
行 队列 。 


[put. queue( ) > con, schedule, flip( )] 


164 extern inline void con schedule flip(struct tty struct *t) 
165 d 

166 queue task(&t-^flip.tqueue, &con task queue); 

167 tasklet_schedule (&console_tasklet) ; 
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168 ] 
这 个 tasklet 定义 于 drivers/char/console.c !': 
2372 DECLARE TASKLET DISABLED(console tasklet, console softint, 0); 


读者 应 结合 第 3 章 中 的 有 关内 容 摘 清 其 机 埋 。 这 个 tasklet 的 执行 程序 是 console, sofünt( )， 其 代码 
也 在 drivers/char/console.c 中 : 


2003 /* 

2004 * This is the console switching tasklet. 

2005 * 

2006 * Doing console switching in a tasklet allows 

2007 * us to do the switches asynchronously (needed when we want 
2008 * to switch due to a keyboard interrupt). Synchronization 
2009 * with other console code and prevention of re-entrancy is 
2010 * ensured with console_lock. 

2011 x/ 

2012 static void console softint (unsigned long ignored) 

2013 — | 

2014 /* Runs the task queue outside of the console lock. These 
2015 * callbacks can come back into the console code and thus 
2016 * will perform their own locking. 

2017 */ 

2018 run task queue (&con task queue); 

2019 

2020 spin lock irq(&console, lock) ; 

2021 

2022 if (want console >= 0) { 

2023 if (want console != fg console && vc cons allocated(want console)) | 
2024 hide cursor(fg console); 

2025 change console(want console); 

2026 /* we only changed when the console had already 
2027 been allocated - a new console is not created 
2028 in an interrupt routine */ 

2029 } 

2030 want console = -1; 

2031 } 

2032 if (do poke blanked console) | /* do not unblank for a LED change */ 
2033 do poke blanked console = 0; 

2034 poke blanked console( ); 

2035 } 

2036 if (scrollback delta) { 

2037 int currcons = fg console; 

2038 clear selection( ); 

2039 if (vemode == KD TEXT) 

2040 sw-^con scrolldelta(ve cons([currcons].d, scrollback delta); 
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scrollback delta = 0; 


} 


spin unlock irq(&console lock); 


进入 console_softint( )， 我 们 就 上 了 个 层次 ， 从 键盘 上 升 到 了 终端 设备 的 层次 。 

使 用 者 通过 按 Alt EASE TT) e BEC SU F2) 切 换 风 拟 终 奖 上 时， 其 体 的 切换 也 是 人 在 这 里 宛 成 的 , 不 过 
我 们 现在 对 此 不 感 兴趣 。 我 们 在 这 里 关心 的 是 对 run, task, queue( ) 的 调用 。 这 个 队列 中 有 些 什 么 参数 要 
SAT ME? 前 面 我 们 看 到 ，con_schedule_flip( ) 中 把 相应 tty. struct 结构 中 的 flip.tqueue 持 入 了 这 个 队列 ， 
而 全 前 PTT FP AE WS HIIS) initialize_tty_struct( ) 里 而 ， 则 将 其 晶 数 指针 设置 成 指向 
flush_to_ldisc( )， 这 个 函数 的 代码 企 drivers/char/tty_io.c F: 


[console softint( ) > run_task_queue( ) > flush to ldisc( )] 


1863 
1864 
1865 
1866 
1867 
1868 
1869 
1870 
1871 
1872 
1873 
1874 
1875 
1876 
1877 
1878 
1879 
1880 
1881 
1882 
1883 
1884 
1885 
1886 
1887 
1888 
1889 
1890 
1891 
1892 
1893 


/* 
* This routine is called out of the software interrupt to flush data 
* from the flip buffer to the line discipline. 


static void flush to ldisc(void *private ) 


| 
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struct tty struct *tty = (struct tly Struct *) private_; 
unsigned char *cp: 

char *fp; 

int count; 

unsigned long flags; 


if (test bit(TTY DONT FLIP, &tty-^flags)) | 
queue task(&tty-^flip.tqueue, &tq timer); 
return; 

} 

if (tty->flip. buf num) { 
cp = tty->flip. char buf + TTY FLIPBUF SIZE; 
fp = tty->flip. flag buf + TTY FLIPBUF SIZE; 
tty-»flip.buf num = 0; 


save [lags (flags); cli(); 

tty-> 门 ip. char_buf_ptr = tty->flip. char_buf; 

tty->flip. flag buf ptr ~ tty->flip. flag buf; 
P else { 

cp = tty—>flip. char_buf; 

fp = tty—>flip. flag buf; 

tty->flip. buf num = 1; 


save flags(flags); cli( ); 


oH 
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1894 tty >flip.flag buf ptr ~ tty-^flip.flag buf + TTY _FLIPBUF_STZE; 
1895 ] 

1896 count = tty—>flip. count; 

1897 tty-^flip.count = 0; 

1898 restore flags(flags); 

1899 

1900 tty->ldisc. receive buf(tty, cp, fp, count); 

1901 } 


IX PE AMES EUW tty->Idisc.receive_buf( ) 从 flip ÆW O ie REIS $53 PAR, [H] 
时 如 以 处 理 。 

可 是 ， 这 里 隐 含 着 个 问题 。 我 们 知道 ，tasklet 在 执行 过 程 中 是 允许 中 上 断 的 (否则 器 没有 意义 了 )， 
如 果 flush_to_ldisc( EFM 一个 缓冲 区 往外 读数 据 ,向 正好 又 发 竺 了 键 可 中 断 , 从 而 又 通过 put_queue( ) 
往 同 缓冲 区 里 面 扎 数据， 郝 岂 不 是 乱 了 套 ?” 品 是， 我 们 所 熟知 的 一 些 保 证 互让 的 办 法 在 这 里 却 都 用 
不 上 。 首 先 ，tasklet 种 中 靳 服务 程序 都 不 是 在 某 个 进程 的 上 下 文中 ， 因 而 不 能 睡眠。 其 次 。 加 锁 也 行 


闭 中 断 以 免 打 扰 , 可 是 那样 又 违背 了 设置 和 使 用 tasklet 机 制 的 初 占 。 这 里 的 解决 办 法 是 采用 “ 双 缓 种 ” 
即 交 替 使 用 两 个 绥 溃 区。 这 红 好 像 翻 来 敌 太 使 用 一 张 纸 的 两 血样 ， 我 在 用 这 一 面 就 让 你 用 为 一 面 ， 
等 我 用 完 这 一 面 就 再 翻 个 面 . 正 因为 这 样 , 才 称 之 为 “hip "eX, 其 数据 结构 定义 十 include/linux/tty.h: 


139 struct tty flip buffer | 


140 struct tq struct tqueue; 

141 struct semaphore pty sem; 

142 char *char buf ptr; 

143 unsigned char *flag buf ptr; 

144 int count; 

145 int buf num; 

146 unsigned char char buf[2*TTY FLIPBUF SIZE}; 

147 char flag buf[2x*TTY FLIPBRUF SIZE]; 

148 unsigned char slop[4]; /* N.B. bug overwrites buffer by 1 */ 
149 ps 


可 匈 ， 缓 冲 区 char buf[ ] 的 大 小 是 TTY. FLIPBUF SIZE 的 项 倍 ， 这 就 好 像 一 紫 纸 的 了 两面。 与 
char. buf[ ] 相 平行 还 有 一 个 数组 flag_buf[ ]， 一 个 字符 总 十 与 一 个 flag 字 节 配对 的 ， 不 过 从 put_queue( ) 
调用 tty insert flip char( ) 时 总 是 把 flag 字 节 设 成 0。 指 针 char buf ptr 和 flag buf ptr 都 是 给 
tty_insert_flip_char( ) 使 用 的 , 而 flush, to. 1disc( 上 对 这 些 指针 的 设置 就 起 着 把 纸 釉 一 个 而 的 作用 。 当然 ， 
这 种 方法 也 是 有 人 缺点 的 ， 那 就 是 实际 上 把 缓冲 区 的 容量 减 小 了 一 站 :而 tty_insert_flip_char( ERME 
冲 区 己 满 的 情况 下 就 会 把 接收 到 的 字符 丢 齐 。 所 以 ， 奉 flush_to_Idise( ) 中 保留 了 PRE, WREE 
tty. struct 结构 中 的 标志 位 TTY_DONT_FLIP 设 成 1， 屠 就 把 要 执行 的 涌 数 转 到 tq. timer 队列 中 去 ， 让 
它 在 时 钟 中 断 时 在 关中 断 的 条 件 下 执行 。 在 前 面 read. chan ) 的 代码 中 ， 我 们 看 到 当 高 层 从 缓冲 | 区 读 出 
时 就 把 TTY DONT. FLIP 标志 位 设 成 1， 进入 星 上 也 时 便 把 它 改 为 0。 

具体 的 操作 取决 十 相应 tty_ldisc 数据 结构 中 的 冰 数 指针 receive_buf。 对 十 tty_ldise_N_TTY 而 言 ， 
这 个 指针 指向 n_tty_receive_buf( )， 其 代码 在 drivers/char/n tty.c T: 
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[console softint( ) > run, task, queue( ) > flush, to ldisc( ) > n_tty_receive_buf( )] 


705 static void n tty receive buf (struct tty struct *tty, const unsigned char *cp, 
106 char *fp, int count) 

707 — 4 

108 const unsigned char *p; 

709 char *f, flags = TTY NORMAL; 

710 int i; 

711 char buf [64] ; 

712 unsigned long cpuflags; 

713 

714 if (!tty—read_buf) 

715 return; 

716 

717 if (tty->real raw) | 

718 spin lock irqsave(&tty—>read_ lock, cpuflags) ; 

719 i = MIN(count, MIN(N TTY BUF SIZE - tty->read_cnt, 
120 N TTY BUF SIZE - tty->read head)): 

721 memcpy(tty-^read buf + tty->read head, cp, i); 

122 tty-^read head = (tty->read head + i) & (N TTY BUF SIZE-1); 
123 tty-^read cnt += i; 

724 cp += j; 

725 count -= i; 

726 

727 i = MIN(count, MIN(N TTY BUF SIZE - tty->read_cnt， 
728 N TTY BUF SIZE - tty-^read head)); 

729 memcpy (tty-?read buf + tty—>read head, cp, i); 

730 tty—>read_head = (tty->read_head + i) & (N TTY BUF SIZE-1): 
731 tty-^read cnt t= i; 

732 spin_unlock_irqrestore (&tty~>read_lock, cpuflags); 
733 } else { 

734 for (i-count, p = cp, f = fp; i; i--, p++) { 

735 if (f) 

136 flags = *f-**; 

737 switch (flags) { 

738 case TTY NORMAL: 

739 n tty receive char(tty, *p); 

140 break; 

141 case TTY BREAK: 

742 n tty receive break (tty) ; 

743 break; 

744 case TTY PARITY: 

745 case TTY FRAME: 

746 n tty receive parity error(tty, *p): 

TAT break; 

748 case TTY OVERRUN: 

749 n_tty_receive_overrun(tty) ; 

750 break; 
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751 default: 

752 printk(“%s: unknown flag %dNn ， 

753 tty name(tty, buf), flags); 

754 break; 

755 j 

756 ) 

751 if (tty driver. flush chars) 

758 tty->driver. flush chars(tty); 

759 } 

760 

761 if _ (Itty->icanon && (tty->read cnt >= tty-^»minimum to wake)) | 
762 kill fasync(&tty->fasync, SIGIO, POLL IM); 

763 if (waitqueue_active (&tty—>read_wait) ) 

764 wake up interruptible(&tty-^read wait); 

765 } 

766 

767 /* l 

768 * Check the remaining room for the input canonicalization 
769 x mode. We don’t want to throttle the driver if we re in 
770 * canonical mode and don’t have a newline yet! 

771 */ 

112 if (n tty receive room(tty) < TTY THRESHOLD THROTTLE) { 
773 /* check TTY THROTTLED first so it indicates our state */ 
114 if (!test and set bit(TTY THROTTLED, &tty—>flags) && 
775 tty->driver. throttle) 

776 tty->driver. throttle(tty); 

777 } 

778. } 


终端 的 tty_struct 结构 中 有 raw 和 real raw 两 个 字段 , 都 表示 终端 层次 上 的 原始 模式 , 但 是 real, raw 
更 为 原始 ， 表 示 即 使 在 链 路 上 出 现 了 Break 状态 ， 或 者 接收 到 的 数据 有 奇偶 校 验 出 错 ， 也 都 原封 不 动 
上 交 。 具 体 的 设置 取决 于 所 用 的 termio， 但 可 以 通过 系统 调用 ioctl( ) 加 以 改变 (命令 码 为 TCSETSF). 
不 过 ， 对 于 控制 台 终 端 这 二 者 实际 上 没有 多 大 区 判 。 

可 想 而 知 ， 对 于 运行 于 real_raw 模式 的 终端 ， 只 要 把 flip 缓冲 区 中 的 内 容 复制 到 终端 的 read_buf[ ] 
缓冲 区 中 就 可 以 了 (718 一 732 行 ), 否则 就 要 通过 734 一 756 行 的 for 循环 逐个 字 节 地 边 搬 运 边 处 理 加 工 ， 
这 就 是 比较 费时 间 的 操作 所 在 。 

如 前 所 述 , flip 缓冲 区 中 的 代码 字 节 都 是 与 一 个 flag 字 节 配对 存在 的 , 这 个 flag 学 节 指明 了 代码 字 
节 的 性 质 和 类 型 。 不 过 ， 由 tty_insert_flip_char( ) 写 入 flip 缓冲 区 时 总 是 把 相应 的 flag 字 节 设 成 0， 就 是 
这 里 的 TTY_NORMAL， 所 以 总 是 调用 n_tty_receive_char( )， 其 代码 也 在 drivers/char/n tty.c 中 。 这 个 
函数 比较 长 ， 我 们 需要 分 段 阅读 。 | 


[console softint( ) > run. task queue( ) > flush to ldisc( ) > n tty. receive buf( ) > n tty receive char( )] 


500 static inline void n tty receive char(struct tty struct *tty, unsigned char c) 
501 { 
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502 
503 
504 
505 
506 
907 
508 
509 
510 
oll 
512 
513 
514 
515 
516 
517 
518 
519 
020 
521 
522 
523 
024 
025 
526 
521 
528 
529 
530 
531 
532 
033 
5234 
535 
536 
537 
538 
539 
540 
54] 
542 
543 
044 
545 
546 
547 
D48 
049 
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if (tty->raw) | 
put tty queue(c, tty); 
return; 


} 


if (tty->stopped && !tty—>flow stopped && 
I IXON(tty) && T tXANY(tty)) { 
start tty(tty): 
return; 


j 


if (I ISTRIP(tty)) 
c & OxTf; 
if (I TUCLC(tty) && L IEXTEN(tty)) 


c-tolower (c); 


if (tty-^closing) { 
if (I IXON(tty)) { 
if (c == START CHAR(tty)) 
start ity(tty); 
else if (c == STOP CHAR (tty)) 
stop tty(tty); 
} 


return: 


/* 


* Tf the previous character was LNEXT, or we know that this 
"* character is not one of the characters that we'll have to 
* handle specially, do shortcut processing to speed things 


* up. 
*/ 
if (Itest bit(c, &tty->process char map) |: tty->lnext) { 
finish erasing(tty) ; 
tty-^»lnext = 0; 
if (L_ECHO(tty)) { 
if (tty->read_cnt >= N TTY BUF SIZE-1) | 
put char( \a’, ity); /* beep if no space */ 
return; 
} 
/* Record the column of first canon char. */ 
if (tty-^canon head == tty->read_head) 
tty-»canon column = tty->column; 
echo char(c, tty); 
| 
if (I PARMRK(tty) && c == (unsigned char) ' \377’) 
put tiy queue(c, tty); 
put tty queuc(c, tty); 
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550 return; 


首先 ， 如 果 终 端 运行 于 原始 模式 ， 就 只 是 简单 地 将 从 flip 缓冲 区 读 出 的 子 符 写 入 终端 的 read_bufl ] 
绥 冲 区 。 


[console_softint( ) > run_task_queue( ) > flush_to_ldisc( ) > n_tty_receive_buf( ) 
»n tty receive char( ) > put_tty_queue( )] 


89 static inline void put tty queue(unsigned char c, struct tty struct *LLy) 
90 { 


91 unsigned long flags; 

92 /* 

93 * The problem of stomping on the buffers ends here. 
94 * Why didn’t anyone see this one comming? —-AJK 

95 */ 

96 spin lock irqsave(&tty-^read lock, flags); 

97 if (tty->read cnt < N TTY BUF SIZE) { 

98 tty->read buf[tty-^read head] = c; 

99 tty->read head = (tty-»read head + 1) & (N TTY BUF SIZE-1); 
100 tty-^read cnt**; 

101 j 

102 spin unlock irqrestore(&tty-^read lock, flags); 

103 } 


终端 的 read buf[ ] 缓 冲 区 是 个 环形 缓冲 区 ，tty->read_head 总 十指 向 下 一 个 可 以 写 入 的 位 置 。 如 果 
read_buf[ ] 中 已 经 写 满 ， 则 于 弃 新 来 到 的 输入 。 

对 于 非 原始 模式 ， 或 称 “ 加 工 模式 ”， 则 要 进行 .系列 的 处 理 。 这 些 处 理 包 括 一 般 的 和 特殊 的 两 部 
分 。 前 者 包括 终端 的 自动 暂停 (进入 省 电 模 式 ) 和 启动 、 强 制 转换 成 小 写字 符 、 往 显示 屏幕 卜 “ 回 打 ” 等 。 
后 者 则 包括 许多 因 具 体 字符 而 异 的 处 理 ， 其 中 也 包括 基于 XON/XOFF 字符 (一 般 是 Ctrl-Q 和 Ctrk-S) 的 
流量 控制 。 

不 过 ， 真 正 要 加 以 特 白 处 理 的 字符 毕竟 还 是 少数 ，tty_struct 结构 中 的 位 网 process_char_map 指明 
了 需 费 特殊 处 理 的 字符 。 只 要 一 个 宁 符 不 属于 这 个 位 图 所 代表 的 集合 , 对 其 进步 的 处 理 就 只 限于 “ 回 
J”, 然后 就 通过 put_tty_queue( ) 把 该 字符 号 入 read_buf[ ] 绥 冲 区 (535~550 行 )。 刀 果 此 前 的 字符 是 个 
“erase” 字 符 ( 如 键盘 上 的 Backspace 键 )， 则 终端 处 于 正在 退学 符 的 状态 ， 现 在 新 的 字符 既然 不 届 于 
process_char_map， 就 显然 不 再 是 “erase” 字 符 ， 所 以 先 调用 finish_erasing( OARA m ANE TIRS, 
然后 就 是 对 “ 回 打 ”的 处 理 了 ，。 

如 果 终 端的 模式 设置 表明 需要 加 打 ， 就 调用 echo_char( ) 完 成 这 个 操作 。 但 是 先 要 检 可 一 下 
read_buf[ ] 绥 冲 区 中 是 否 还 有 空位 可 以 接受 当前 的 字符 。 如 果 己 经 满 了 就 要 问 显 泵 右 接 门 写 一 个 “\a” 
字符 , 让 它 “ 嘟 ”地 响 一 下 , 以免 使 用 彰 误 以 为 打 入 的 字符 已 被 接受 。 注意 不 要 把 这 里 调用 的 put_char( ) 
与 应 用 程序 设计 中 的 C 库 函 数 混淆 ， 这 是 个 inline MR, XX D drivers/char/n_tty.c: 


[console_softint( ) > run_task_queue( ) > flush_to_Idisc( ) > n tty receive buf( ) > n_tty_receive_char( ) > 
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put. char( )] 


301 
302 


static inline void put_char (unsigned char c, struct tty struct *tty) 
{ 
tty~>driver. put_char (tty, c); 


) 


显然 ， 具 体 的 操作 取决 于 相应 tty. driver 结构 中 的 函数 指针 put_char， 对 于 一 般 的 终端 设备 这 个 指 
EFJ] tty_default_put_char( )， 等 - :下 我 们 还 要 看 这 个 函数 的 代码 。 
函数 echo_char( ) 的 代码 在 drivers/char/n_tty.c FP: 


[console_softint( ) > run task queue( ) > flush, to ldisc( ) > n_tty_receive_buf( ) 
»n tty receive char( ) > echo_char( )] 


308 
309 


static void echo_char (unsigned char c, struct tty struct *tty) 
{ 
if (L ECHOCTL(tty) && iscntrl(c) && c !=’\t’) f 
put char( ", tty); 
put char(c ^ 0100, tty); 
tty-^column += 2; 
} else 
opost(c, tty); 


} 


对 于 输入 时 同时 按 下 了 Ctrl 键 的 字符 ， 回 打 时 要 在 该 字符 之 前 如 上 一 个 “^” 学 符 。 对 正常 输入 的 
字符 则 还 需要 进一步 的 特殊 处 理 ， 情 况 更 为 复杂 ， 所 以 通过 opost( ) 完 成 回 打 ， 其 代码 也 在 
drivers/char/n_tty.c P: 


[console_softint( ) > run_task_queue( ) > fiush_to_jdisc( ) > n. tty. receive, buf( ) 
> n_tty_receive_char( ) > echo. char( ) > opost( )] 


172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 


/* 

* Perform OPOST processing. Returns -1 when the output device is 
* full and the character must be retried. 

*/ 

static int opost (unsigned char c, struct tty struct *tty) 


{ 


int space, spaces; 


space = tty~>driver. write room(tty); 
if (!space) 
return -1: 


if (0 OPOST(tty)) { 
switch (c) ( 
case An : 
if (0 ONLRET (tty)) 
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188 tty->colum = 0; 

189 if (0 ONLCR(tty)) { 

190 if (space < 2) 

191 return -1; 

192 tty->driver. put_char(tty, 'Wr'); 
193 tty->column = Q; 

194 } 

195 tty->canon_ column = tty->column; 

196 break; 

197 case 'Nr': 

198 if (0 ONOCR(tty) && tty->column == 0) 
199 return 0; 

200 if (0 OCRNL(tty)) 1 

201 c= '\n; 

202 if (O_ONLRET (tty) ) 

203 tty->canon_column = tty~>column = 0; 
204 break ; 

205 } 

206 tty->canon column = tty—>column = Q; 
207 break; 

208 case ’\t’: 

209 spaces = 8 - (tty—>column & 7); 

210 if (0 TABDLY(tty) == XTABS) { 

211 if (space < spaces) 

212 return 一 | 

213 tLy->colum += spaces; 

214 tty->driver. write(tty, 0, ^ ^, Spaces); 
215 return Q; 

216 ) 

217 tty->column += spaces; 

218 break; 

219 case 'Wb': 

220 if (tty—>column > 0) 

22] tty-»column--; 

222 break; 

223 default: 

224 if (0 OLCUC(tty)) 

225 c = toupper (c); 

226 if (lisentrl(c)) 

227 Lty->columntt+; 

228 break; 

229 } 

230 } 

231 tty->driver. put_char(tty, c); 

232 return 0; 

233 } 


首先 检查 终端 的 写 缓冲 区 中 是 售 有 空间 。 这 里 的 特 冻 处 理 主要 是 针对 “NM An W AA UND 
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则 是 要 把 它 展 并 成 若干 个 空格 。 这 段 程 序 比 较 简 单 ， 我 们 就 不 多 说 了 。 最 后 ， 与 put_char() - 样 ， 也 是 
通过 相应 tty, driver 结构 中 的 函数 指针 put. char 完成 对 终端 显示 器 的 写 操作 。 对 二 一般 的 终端 设备 ， 这 
个 指针 指 回 tty. default put. char( )， 其 代 舍 还 此 在 drivers/char/tty_io.c P: 


[console softint( ) > run_task_queue( ) > flush, to. ldisc( ) > n_tty_receive_buf( ) 
»n tty receive char( ) > echo char( ) > opost( ) > tty default, put. char( )] 


1979 /* 
1980 * The default put char routine if the driver did not define one. 
1981 */ 


1982 void tty default put char (struct tty struct *tty, unsigned char ch) 
1983 { 

1984 tty->driver. write(tty, 0, &ch, 1); 

1985  ] 


XX X re HE RC CE UR). DOT PEU GPR, iX ELT In) con wrie( )， 其 代码 在 


drivers/char/console.c !|': 


[console softint( ) > run, task queue( ) > flush to ldisc( ) > n tty. receive buf( ) 
»n tty receive char( ) > echo char( ) > opost( ) > tty. default put char( ) > con, writc( )] 


2217 static int con_write (struct tty struct * tty, int from user, 


2218 consi unsigned char *buf, int count) 

2219 { 

2220 int retval; 

2221 

2222 pm access(pm con); 

2224 retval * do con write(tty, from user, buf, count); 
2224 con fiush chars(tty): 

2225 

2226 return retval; 

2227 |] 


注意 这 里 的 第 二 个 参数 from_user， 当 这 个 参数 为 1 时 表示 要 写 的 内 容 来 自用 户 空 间 ， 为 0 时 则 来 
自 系 统 空间 。 指 针 buf 指向 要 写 的 字符 缓冲 区 ，count 则 为 长 度 。 显 然 ， 这 个 因数 是 个 汇合 点 ，“: 边 是 
系统 调用 read( ) 中 的 同 打 操作 ， 另 一 边 则 是 常规 的 系统 调用 write( )。 

操作 的 主体 是 do_con_write( )， 也 和 在 drivers/char/tty_io.c 路。 这 个 陆 数 又 比较 长 ， 我 们 分 段 阅 读 。 
[console softint( ) > run task queue( ) > flush_to_ldisc( ) > n_tty_receive_buf( ) 


1n tty receive char( ) > echo char( ) > opost( ) > tty. default put, char( ) > con. write( ) 
» do con write( )] 


1807 static int do con write(struci tty struct * tty, int from user, 
1808 const unsigned char *buf, int count) 
1809 | 
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1810 Sifdef VT BUF VRAM ONLY 
1811 #definc FLUSH do { ] while(0); 


1812 Helse 

1813 define FLUSH if (draw x >= 0) { \ 

1814 sw->con_putes(ve_cons[currcons].d, (ul6 *) draw_from, \ 
(ul6 *)draw to-(ul6 *)draw_from, y, draw x); \ 

1815 draw x = -1; ^ 

1816 } 

1817 Hendif 

1818 

1819 int €, te, ok, n = 0, draw x = ~l; 

1820 unsigned int currcons; 

1821 unsigned long draw from = 0, draw to - 0; 

1822 struct vt struct *vt = (struct vt struct *)tty— driver data; 

1823 ul6 himask, charmask; 

1824 const unsigned char *orig buf = NULL; 

1825 int orig count; 

1826 

1821 currcons - vt-2vc num; 

1828 if (!vc cons allocated(currcons)) | 

1829 /* could this happen? */ 

1830 static int error = 0; 

1831 if (lerror) | 

1832 error - l; 

1833 printk('con write: tly %d not allocated\n”, currcons*l); 

1834 } 

1835 return 0; 

1836 } 

1837 

1838 orig buf = buf; 

1839 orig count = count; 

1840 

1841 if (from user) { 

1842 down(&con buf sem); 

1843 

1844 again: 

1845 if (count > CON BUF SIZE) 

1846 count = CON BUF SIZE; 

1847 if (copy. from user(con buf, buf, count)) | 

1848 n= 0; /* ?? are error codes legal here ?? */ 

1849 goto out; 

1850 } 

1851 

185Z buf = con buf; 

1853 } 

1854 


这 一 段 程序 比较 简单 ， 主 要 是 从 用 户 空间 把 输出 数据 复制 到 内 核 中 。 对 才 我 们 这 个 情景 ， 输 出 数 
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据 本 来 就 在 内 核 中 ， 所 以 实际 上 不 起 作用 。 我 们 继续 往 下 看 : 


[console_softint( ) > run, task queue( ) > flush_to_Idisc( ) > n. tty receive buf( ) > n tty receive char( ) > 
echo char( ) > opost( ) > tty. default put. char( ) > con. write( ) > do, con write( )] 


1855 /* At this point 'buf' is guarenteed to be a kernel buffer 
1856 * and therefore no access to userspace (and therefore sleeping) 
1857 * will be needed. The con buf sem serializes all tty based 
1858 * console rendering and vcs write/read operations. We hold 
1859 * the console spinlock during the entire write. 
1860 */ 

1861 

1862 spin lock irq(&console lock); 

1863 

1864 himask = hi font mask; 

1865 charmask = himask ? Oxlff : Oxff; 

1866 

1867 /* undraw cursor first */ 

1868 if (TS FG) 

1869 hide cursor(currcons): 

1870 

1871 while (!tty->stopped && count) { 

1872 c = *buf; 

1873 buft+; 

1874 ntt; 

1875 count- ; 

1876 

1877 if (utf) { 

1878 /* Combine UTF-8 into Unicode */ 

1879 /* Incomplete characters silently ignored */ 
1880 if (c > 0x7f) { 

1881 if (utf count > 0 && (c & OxcO) == 0x80) { 
1882 utf char = (utf char << 6) | (c & 0x30) ; 
1883 utf count--; 

1884 if (utf count == 0) 

1885 tc = c = utf char; 

1886 else continue; 

1887 ) else { 

1888 if ((c & 0xe0) == Oxcd) ( 

1889 utf count - 1; 

1890 utf char = (c & Oxlf): 

1891 ) else if ((c & Oxf0) == 0xe0) ( 

1892 utf count = 2; 

1893 utf char = (c & 0x05; 

1894 } else if ((c & Oxf8) == OxfO) { 

1895 utf count = 3; 

1896 utf char = (c & 0x07); 

1897 } else if ((c & Oxfc) == Oxf8) { 
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1898 utf count = 4; 

1899 utf char = (c & 0x03); 

1900 ) else if ((c & Oxfe) == Oxfc) 1 
1901 utf count = 5; 

1902 utf char = (c & 0x01); 

1903 } else 

1904 utf count = 0; 

1905 continue; 

1906 } 

1907 } else { 

1908 tc = c; 

1909 utf count = 0; 

1910 } 

1911 } else { /* no utf */ 

1912 tc = translate[toggle meta ? (c|0x80) : c]; 
1913 } 


先 通 过 hide_cursor( ) 把 光标 隐 去 ， 然 后 就 是 对 输出 数据 的 while 循环 。 这 里 的 utf 是 个 宏 定义 ， 定 


M.-F drivers/char/console macros.h: 


26 define utf (vc cons[currcons]. d->ve_utf) 
27 #define utf count — (vc cons[currcons]. d->vc_utf_count) 
28 Hdefine utf char (vc. cons[currcons]. d->vc_utf_char) 


就 是 说 ， 如 果 当 前 (前 台 ) 虚 拟 控制 台 终 端 运行 于 UTF-8 模式 ， 则 要 把 UTF-8 代码 还 原 成 16 位 的 
Unicode， 最 后 存放 在 变量 te 中 。 我们 把 这 段 程序 留 给 读者 与 前 面 的 to_utf8( ) 对 照 阅 读 ， 这 里 仅 关 注 普 
通 的 8 位 代码 。 用 于 显示 的 字符 统一 为 16 位 Unicode, 一 般 的 8 位 字符 要 通过 一 个 数组 变换 成 Unicode; 
这 里 的 translate 在 drivers/char/console_macros.h 中 定义 成 当前 终端 的 变换 数组 。 


21 Hdefine translate (ve cons[currcons]. d->ve_translate) 


每 个 虚拟 控制 台 的 vc. data 数据 结构 中 有 个 指针 vc_translate， 指 向 一 个 大 小 为 256 的 数组 ，8 位 的 
ASCI 或 其 他 代码 可 以 通过 这 个 数组 转换 成 16 位 Unicode。 内 核 中 有 个 二 维 数组 translationsl ][ ]， 定 义 
于 drivers/char/consolemap.c， 我 们 在 这 里 只 列 出 其 中 大 干 片断 : 


24 static unsigned short translations[ ![256] = { 


25 /* 8-bit Latin-1 mapped to Unicode — trivial mapping */ 

26 { 

27 0x0000, 0x0001, 0x0002, 0x0003, 0x0004, 0x0005, 0x0006, 0x0007, 
28 0x0008, 0x0009, 0x000a, 0x000b, 0x000c, Ox000d, 0x000e, OxO0O00f, 
99 Jn 

60 /* VT100 graphics mapped to Unicode */ 

61 { 


© 8 è 8 c5 t9 
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94 b; 

95 /* IBM Codepage 437 mapped to Unicode */ 

96 { 

97 0x0000, 0x263a, 0x263b, 0x2665, 0x2666, 0x2663, 0x2660, 0x2022, 
98 0x25d8, Ox25cb, 0x25d9, 0x2642, 0x2640, 0x266a, 0x266b, 0x263c, 
129 by 

130 /* User mapping -- default to codes for direct font Mapping */ 
131 { 

132 Oxf000, Oxf001, Oxf002, Oxf003, Oxf004, Oxf005, Oxf006, Oxf007, 
133 Oxf008, Oxf009, Oxf00a, OxfOOb, Oxf00c, Oxf00d, Oxf00e, OxfOOf, 
164 } 

165: J; 


这 个 二 维 数组 中 包含 着 4 个 字符 转换 数组 ， 每 个 虚拟 控制 台 的 指针 ve translate 指向 其 中 的 一 个 ， 
可 以 通过 系统 调用 ioctl( ) 来 改变 。 不 仅 如 此 ， 还 可 以 通过 ioctl() 从 用 户 空间 下 载 (或 上 载 ) 用 户 定 义 的 字 
符 转 换 数组 来 覆盖 原 有 的 数组 ,也 可 以 下 载 (或 上 载 ) 用 户 定义 的 字库 。 虚 拟 控制 台 的 ioctl() 函 数 vt iocti( ) 
是 个 堪 称 巨型 的 函数 ， 其 代码 达 700 行 之 多 ， 提 供 了 各 种 各 样 的 功能 ，/musrybin 目录 下 的 setfont. 
setkeycodes、loadkeys 等 工具 就 是 建立 在 这 个 系统 调用 的 基础 上 。 由 于 篇 幅 的 限制 ， 我 们 在 这 里 就 不 看 
这 个 函数 了 , 有 兴趣 或 带 要 的 读者 可 自行 阅读 .对 十 translations[ ][ ] 中 的 第 “个 字符 转换 数组 , 即 ASCI[ 
字符 (或 “Latin-1”) 的 转换 数组 ， 所 作 的 转换 实际 上 就 是 保持 原 值 不 变 ， 只 不 过 是 从 8 位 变 成 了 16 位 。 
从 代码 中 可 以 看 出 ， 每 个 字符 转换 数组 的 大 小 是 236， 所 以 只 能 支持 拼音 文字 ， 而 不 能 支持 CKV (中 
Dee) SEH aS. 

DZ MERE tc 中 是 待 显 示 字 符 的 16 位 Unicode, MER c 中 则 是 该 字符 原来 的 8 位 代码 。 我 
们 继续 往 下 看 (drivers/char/console.c): 


[console softint( ) > run_task_queue( ) > flush_to_ldisc( )»n tty receive buf( ) > n tty receive char( ) > 
echo char( ) > opost( ) > tty default put char( ) > con write( ) > do. con, write(-)] 


1914 

1915 /* 1f the original code was a control character we 
1916 * only allow a giyph to be displayed if the code is 
1917 * not normally used (such as for cursor movement) or 
1918 * if the disp ctrl mode has been explicitly enabled. 
1919 * Certain characters (as given by the CTRL ALWAYS 
1920 * bitmap) are always displayed as control characters, 
1921 * as the console would be pretty useless without 
1922 * them; to display an arbitrary font position use the 
1923 * direct-to-font zone in UTF-8 mode. 

1924 */ 

1925 ok = tc && (c >= 32 || 

1926 Clutf && !(((disp_ctrl ? CTRL ALWAYS 

1927 : CTRL_ACTION) >> c) & 1))) 
1928 && (c !- 127 j| disp ctrl) 
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1929 
1930 
1931 
1932 
1933 
1934 
1935 
1936 
1937 
1938 
1939 
1940 
1941 
1942 
1943 
1944 
1945 
1946 
1947 
1948 
1949 
1950 
1951 
1952 
1953 
1954 
1955 
1956 
1997 
1958 
1959 
1960 
1961 
1962 
1963 
1964 
1965 
1966 
1967 
1968 
1969 
1970 
197] 
1972 
1973 
1974 
1975 
1976 


&& (c !- 12812) ; 


if (vc. state == ESnormal && ok) | 
/* Now try to find out how to display it */ 
tc = conv uni to pc(vc cons[currcons]. d, tc); 
if (tc == -4 ) 1 
/* If we got -4 (not found) then see if we have 
defined a replacement character (U+FFFD) */ 
tc = conv uni to pc(vc cons[currcons].d, Oxfffd);: 


/* One reason for the -4 can be that we just 
did a clear unimap( ); 
try at least to show something. */ 
if (te == -4) 
tc = c; 
} else if (tc = -3 ) 1 
/* Bad hash table -- hope for the best */ 
te =e: 
} 
if (tc & "charmask) 
continue; /* Conversion failed */ 


if (need wrap || decim) 
FLUSH 
if (need wrap) 1 
cr (currcons) ; 
1f (currcons) ; 
} 
if (decim) 
insert char(currcons, 1); 
scr writew(himask ? 
((attr << 8) & "himask)*((tc & 0x100) ? himask : 0)+(tc & Oxff) 
(attr << 8) + tc, 
(ul6 *) pos); 
if (DO UPDATE && draw x < 0) | 
draw x = x; 
draw from - pos; 
} 
if (x == video num columns - 1) { 
need wrap = decawm; 
draw to - pos*2; 
} else | 
xcu 
draw to = (post-2); 
j 
continue; 
} 
FLUSH 
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1977 do con trol(tty, currcons, c); 

1978 } 

1979 FLUSH 

1980 spin unlock irq(&console lock); 

1981 

1982 out: 

1983 if (from user) { 

1984 /* If the user requested something larger than 
1985 * the CON BUF SIZE, and the tty is not stopped, 
1986 * keep going. 

1987 */ 

1988 if ((orig count > CON BUF SIZE) && !tty->stopped) { 
1989 orig count -= CON BUF SIZE; 

1990 orig buf *- CON BUF SIZE; 

199] count = orig count; 

1992 buf = orig buf; 

1993 goto again; 

1994 } 

1995 

1996 up(&con buf sem); 

1997 } 

1998 

1999 return n; 

2000 #undef FLUSH 

2001 } 


并 不 是 所 有 的 字符 都 可 以 显示 ， 所 以 1925 行 根据 字符 转换 前 后 的 数值 确定 是 否 可 以 显示 。 如 果 转 
换 前 字符 的 数值 小 于 32， 即 “空格 ” 那 就 是 控制 字符 ， 一 般 情 况 下 是 不 能 显示 的 。 如 果 字 符 可 以 显示 
(ok 为 D， 虚 拟 控 制 台 又 处 于 正常 工作 状态 ， 就 可 以 进一步 处 理 字符 的 显示 了 。 

对 于 虚拟 控制 台 ， 系 统 的 图 形 卡 工作 于 学 符 模 式 ， 最 终 写 入 图 形 卡 的 是 一 个 16 位 短 字 ， 其 低 字 节 
是 字符 本 身 的 代码 ， 高 字 节 则 为 字符 的 “属性 ” 字符 的 “属性 ”决定 着 显示 该 字符 时 的 亮度 、 颜 色 等 
要 素 。 所 以 ， 最 后 还 得 把 字符 转换 成 用 于 图 形 卡 的 8 位 代码 ， 这 种 转换 是 由 conv, uni to. pe ) 完 成 的 ， 
其 代码 在 drivers/char/consolemap.c 'H: 


635 int 

636 conv uni to pc (struct vc data *conp, long ucs) 

637 { 

638 int h; 

639 ul6 **pl, *p2; 

640 struct uni pagedir *p; 

641 

642 /* Only 16-bit codes supported at this time */ 

643 if (ues > Oxffff) 

644 ucs = Oxfffd; /* U*FFFD: REPLACEMENT CHARACTER x*/ 
645 else if (ucs < 0x20 || ucs >= Oxfffe) 

646 return -1; /* Not a printable character */ 
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647 else if (ucs == Oxfeff || (ucs >= 0x200a && ucs <= 0x200f)) 
648 return -2; /* Zero-width space */ 

649 /* 

650 * UNI DIRECT BASE indicates the start of the region in the User Zone 
651 * which always has a 1:1 mapping to the currently loaded font. The 
652 * UNI DIRECT MASK indicates the bit span of the region. 
653 */ 

654 else if ((ucs & "UNT DIRECT MASK) == UNI DTRECT BASE) 

655 return ucs & UNI DIRECT MASK; 

656 

657 if (b*conp-^ve uni pagedir loc) 

658 return -3; 

659 

660 p = (struct uni pagedir *)*conp->vc uni pagedir loc; 

661 if ((pl = puni pgdirlucs >> 11]) && 

662 (p2 = pl[ (ucs >> 6) & Ox1f]) && 

663 (h = p2[ucs & Ox3f]) < MAX GLYPH) 

664 return h; 

665 

666 return -4; /* not found */ 

667 } 


这 个 函数 的 主体 十 660—664 行 。 虚 拟 控制 台 的 vc_data 数据 结构 中 还 有 个 指针 ve_uni_pagedir_loc, 
指向 一 个 uni, pagedir 数据 结构 ， 这 是 在 drivers/char/consolemap.c 中 定义 的 : 


174 struct uni pagedir { 


175 ul6 **uni pgdir[32]:; 

176 unsigned long tefcount ; 

177 unsigned long sum; 

178 unsigned char *inverse_translations[4]; 
179 int readonly; 

180 }; 


对 于 每 个 串 显 示 的 字符 ， 图 形 卡 在 显示 器 上 显示 的 是 这 个 字符 的 特殊 图 形 ， 称 为 “字模 ”(glyph) 。 
工作 寺 字 符 模式 (而 不 是 图 像 模 虑 ) 的 VGA 图 形 卡 可 以 显示 256 个 字模 (所 以 只 能 用 于 拼音 文学 )。 根 据 
正在 使 用 的 语言 ， 可 以 将 不 同 的 字模 装 入 图 形 卡 ， 然 后 将 在 这 种 语言 中 可 以 显示 的 字符 的 Unicode 变 
换 成 这 些 字 模 的 编号 。 这 样 ， 就 可 以 达到 “本 地 化 ”的 日 的 。 当 然 ， 这 只 是 对 采 肝 拼音 文字 的 地 区 和 
国家 而 言 。 这 个 数据 结构 以 及 conv_uni_to_pe() 的 作用 就 是 实现 从 Unicode 到 字模 编号 的 变换 ,或 者 说 
映射 。 对 于 ASCI 码 ， 字 模 的 编号 与 字符 的 代码 相同 ， 但 是 一 般 而 言 都 需要 加 以 变换 。 最 简单 的 变换 
当然 是 采用 数组 的 方法 , 但 是 对 十 16 位 的 Unicode 这 意味 着 数组 的 大 小 为 64K。 这 显然 是 没有 必 旨 的 ， 
因为 对 于 任何 “种 具体 的 拼音 文字 这 个 数组 都 必定 是 非常 稀 朴 的 。 为 了 提高 空间 效率 ， 人 们 把 16 位 的 
Unicode 空间 划分 成 32 个 “三 页 ” 这 里 指针 数组 uni_pgdirf ] 引 的 每 个 指针 就 指 癌 一 个 但 页 ， 以 16 位 
Unicode 15 TRIES 位 作为 下 标 。 这 样 ， 如 果 对 于 具体 的 语 癌 某 个 码 页 为 全 罕 ， 就 不 必 为 之 分 配 空 
间 , 而 只 要 使 相应 的 指针 为 0 即 可 。 为 便于 管理 ,每 个 但 页 又 划分 成 32 个 子 页 ， 再 以 次 5 位 作为 下 标 ， 
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所 以 uni_pgdir[ ] 中 的 指针 所 指向 的 是 二 维 数组 。 这 些 数组 的 内 容 是 在 初始 化 时 通过 个 函数 
con set default unimap( ) 设 置 的 ,设置 的 依据 是 -个 临时 性 的 大 数组 dfont_unitable[ ], 初始 化 完成 以 后 ， 
这 个 数组 所 点 的 空间 就 岂 收 男 作 它 用 了 。 那 么 ， 数 组 dfont unitable| ] 的 内 容 又 是 什么 ， 是 从 哪里 来 的 
WE? 显然 ， 其 内 容 应 该 取决 于 使 用 的 是 哪 一 种 语言 。 对 于 英语 (美国 英语 )，drivers/char 日 录 下 有 个 文件 
cp437.uni 《表示 437 AB KLIK] Unicode 编码 )， 我 们 在 这 里 列 出 其中 一 些 片 断 ， 让 读者 有 个 印象 : 





l # 

2 # Unicode table for IBM Codepage 437. Note that there are many more 
3 # substitutions that could be conceived (for example, thick-line 

4 # graphs probably should be replaced with double-line ones, accented 
5 # Latin characters should replaced with their nonaccented versions, 

6 # and some upper case Greek characters could be replaced by Latin), however, 
7 # I have limited myself to the Unicodes used by the kernel ISO 8859-1, 
8 # DEC VT, and IBM CP 437 tables. 

9 # 
10 本 二 二 一 

11 # 
12 # Basic IBM dingbats, some of which will never have a purpose clear 
13 # Lo mankind 

14 # 


15 0x00 U*0000 
16 0x01 U*263a 
17 0x02 U+263b 
18 0x03 U+2665 


* 8p 083 č a č è ç 84 


47 # 

48 # The ASCIT range is identity-mapped, but some of the characters also 
49 # have to act as substitutes, especially the upper-case characters. 
50 # 


51 0x20 U+0020 

52 0x21 U+0021 

53 0x22 U+0022 U+00a8 

84 0x41 U+0041 U*00cO U+00c1 Ut+00c2 U+00c3 
85 0x42 U+0042 

86 0x43 U+0043 U+00a9 

87 0x44 U+0044 

285 # 

286 # Square bullet, non-spacing blank 
287 # Mapping U+fffd to the square bullet means it is the substitution 
288 # character 

289 # 

290 Oxfe U+25a0 U«fffd 

291 Oxff U+00a0 
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例如 ， 字模 0x42 (“B”) 的 Unicode 就 是 0x42: 而 0x41 (“A”) 则 同时 对 应 着 5 个 Unicode 代码 。 
文件 中 定义 的 字模 编号 最 高 为 0xf， 所 以 只 定义 了 256 个 字模 。 当 编译 Linux 内 核 时 ， 通 过 :个 工具 
conmakehash 从 这 个 文件 为 dfont_unitable[ j 生 成 一 个 文件 detkeymap.c， 后 者 则 是 内 核 源 代码 的 一 个 组 
成 部 分 。 为 帮助 读者 理解 这 一点， 我 们 看 一 下 drivers/char 下 面 的 Makefile: 


19 FONTMAPFILE = cp437. uni 


489 consolemap_deftbl.c: $(FONTMAPFILE) conmakehash 
490 ./conmakehash $(FONTMAPFILE) > consolemap deftbl.c 


假定 现在 是 在 法 国 ， 要 让 内 核 显 示 法 文 ， 那 就 要 提供 用 于 法 文 的 ,uni 文件 ， 并 修改 Makefile 中 
FONTMAPFILE 的 定义 ， 再 编译 内 核 就 可 以 了 。 全 于 上 上 内 conmakehash， 其 源 代 码 conmakehash.c 也 在 
drivers/char 中 。 

最 终 通过 scr_writew( ) 写 入 图 形 卡 的 是 一 个 16 位 短 字 ， 其 低 字 节 是 字符 本 号 的 代码 te mue 1 Uu 
ATA "ESTE" attr. XE scr_writew( ) 是 个 安 操作 ， 定 义 丁 include/linux/vt, buffer.h: 





23 Hdefine scr writew(val, addr) (*(addr) = (val)) 


PC 机 图 形 卡 (如 YGA) 上 的 RAM 区 间 人 在 0xa0000 LA ls BIOS 以 下 的 位 置 上 ， 其 相对 于 起 点 的 地 
址 与 显示 屏 上 的 位 置 有 着 一 一 对 应 的 关系 ，CPU 可 以 通过 访 内 指令 直接 访问 。 由 于 图 形 卡 工作 于 学 符 
方式 ,所 以 只 要 把 字符 的 代码 (实际 上 站 字模 的 编号 ) 连 同 其 属性 写 入 相应 的 存储 单元 即 可 ， 而 不 必 关 心 
具体 的 宁 模 和 像素 。 

显然 ，Linux 内 核 丰 “本 地 化 ”方面 的 努力 只 限 丁 拼音 文字 ， 而 不 适用 于 CJKV。 以 汉字 为 例 ， 如 
果 要 在 内 核 中 支持 汉字 ， 图 形 卡 就 必须 工作 于 网 像 方式 ， 这 样 才 能 显示 数 和 干 个 常用 汉字 的 字模 。 此 外 ， 
即使 是 拼音 文字 ， 纲 代 的 图 形 用 户 界 而 也 要 求 采 用 图 像 方式 。 不 过 从 字符 方式 前 进 到 图 像 方式 这 步 
属 十 图 像 处 理 的 范畴 ， 我 们 这 里 就 从 略 了 。 有 兴趣 或 需要 的 读 省 可 以 日 山 钻研 drivers/video Hox FS 
“WEK” (frame buffer fi X: uds. 

回 到 n_tty_receive_char( ) 的 代码 中 ， 我 们 出 经 看 了 对 ERWEE, ELR KERT 
符 的 处 于 所 以 继续 往 下 看 (drivers/char/n_tty.c): 


[console_softint( ) > run, task queue( ) > flush_to_ldisc( ) > n. tty receive buf( ) > n_tty_receive_char( )] 


553 if (c = Ww) { 

554 if (I IGNCR(tty)) 

555 return: , 

556 if (I ICRNL(tty)) 

557 cn 

558 | else if (c 一 An && I_INLCR(1tty)) 
559 Corie = 

560 if (I IXON(tty)) 1 

561 if (c == START CHAR(tty)) { 
562 start tty(tty); 

563 return; 
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564 
065 
566 
567 
568 
069 
570 
571 
012 
573 
574 
575 
576 
577 
578 
579 
580 
581 
582 
583 
584 


作用 


ZEER r” n” UR XON/XOFF 等 字符 的 处 理 。 这 就 是 说 ， 不 答 这 些 字符 是 否 属于 
process char map， 对 这 些 字 符 总 是 要 进行 一 些 处 理 ， 只 古方 式 略 有 不 同 。 偿 有 ， 就 是 几 个 可 以 导致 向 
终端 的 控制 进程 发 出 信号 的 字符 ， 如 Ctrl-C. Ctrl-Z 这 些 字符 。 这 里 还 要 说 明 ， 对 所 有 这 些 字符 的 处 理 
都 是 可 以 通过 系统 调用 iocd( ) 分 别 加 以 设置 和 选择 的 ， 所 以 ioctl( ) 对 终端 设备 的 驱动 起 着 特别 重要 的 


[a] 


至 此 ， 我 们 尚未 触及 对 终端 设备 输入 的 “规范 ”(canonical) 模 式 ， 下 面 我 们 就 来 看 “规范 ”模式 对 


Linux 内 核 源 代码 情景 分 析 〈 下 册 ) 
} 
if (e == STOP CHAR(tty)) { 
stop tty(tty); 
return; 


j 


if (L ISIG(tt9)) { 


int signal; 

signal = SIGINT; 

if (c == INTR CHAR (tty)) 
goto send signal; 

signal = SIGQUIT; 

if (c == QUIT CHAR(1ty)) 
goto send signal; 

signal - SIGTSTP; 

if (c == SUSP CHAR(tty)) { 


send signal: 


isig(signal, tty, 0); 
return; 


输入 的 加 工 或 者 “ 京 调 ”。 


[console softint( ) > run_task_queue( ) > flush to ldisc( ) > n_tty_receive_buf( ) 


»n tty receive char( )] 


985 
586 
587 
588 
589 
590 
591 
592 
593 
594 
595 
596 
597 
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if (tty->icanon) | 
if (c == ERASE CHAR(tty) || c == KILL CHAR(tty) || 
(c == WERASE CHAR(tty) && L IEXTEN(tty))) { 


eraser(c, tty); 
return; 


} 


if (e == LNEXT CHAR(tty) && L_IEXTEN(tty)) { 


tty-^lnext - 1; 
if (L ECHO(tty)) { 
finish erasing(tty); 
if (L ECHOCTL(tty)) ( 
put char °, tty); 
put char( \b’, tty); 
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} 
return; 
} 
if (c == REPRINT CHAR(tty) && L ECHO(tty) && 
L IEXTEN(tty)) { 
unsigned long tail = tty-^canon head; 


finish, erasing(tty); 
echo char(c, tty); 
opost? M , tty); 
while (tail != tty->read head) 1 
echo char(tty-^»read buf[tail], tty); 
tail = (tail+!) & (N TTY BUF SIZE-1); 
} 
return; 
} 
if (e == Ww) { 
if (L ECHO(tty) || L ECHONL(tty)) | 
if (tty->read cnt >= N TTY BUF SIZE-1) { 
put char( \a’, tty); 
return; 
} 
opost o«n', tty); 
) 
goto handle newline; 
} 
if (c == EOF_CHAR(tty)) { 
if (tty->canon head != tty-^read head) 
set bit (TTY PUSH, &tty—>flags) ; 
c =  DISABLED CHAR; 
goto handle newline; 
j 
if ((c == EOL_CHAR(tty)) || 
(c == EOL2 CHAR (tty) && L IEXTEN(tty))) | 
/* 
* XXX are EOL CHAR and EOL2 CHAR echoed?!? 
*/ 
if (L ECHO(tty)) { 
if (tty>read_cnt >= N TTY BUF SIZE-D) { 
put char \a’, tty); 
return; 


} 


/* Record the column of first canon char. 


if (tty->canon_head == tty->read head) 
tty—>canon_column = tty->column; 
echo char(c, tty); 


*/ 
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646 /* 

647 * XXX does PARMRK doubling happen for 

648 * FOL CHAR and EOL2 CHAR? 

649 &/ 

650 if (I PARMRK(tty) && c == (unsigned char) ’ \377’) 
651 put tty queue(c, tty); 

652 

653 handle newline: 

654 set bit(tty-^read head, &tty-»read flags); 
655 put tty queue(c, tty); 

656 tty-^canon head = tty-?read head; 

657 tty—>canon_datat+; 

658 kill fasync(&tty-^fasync, SIG1O, POLL IN): 
659 if (waitqueue active(&tty-^read wait)) 

660 wake up interruptible(&tty-^read wait); 
661 return; 

662 } 

663 } 

664 

665 finish erasing(tty); 

666 if (L ECHO(tty)) { 

667 if (tty-?read cnt >= N TTY BUF SIZE-1) { 

668 put char( \a’, tty); / beep if no space x*/ 
669 return; 

670 } 

671 if (e ==’ \w) 

672 opost C \n’, tty); 

673 else | 

674 /* Record the column of first canon char. */ 
675 if (tty-^canon head == tty-^read head) 

676 tty-2canon column = tty->column: 

677 echo_char(c, tty); 

678 } 

679 } 

680 

681 if (I PARMRK(tty) && c == (unsigned char) ’ \377’) 
682 put tty queue(c, tty); 

683 

684 put tty queue(c, tty): 

685 ] 


FATA RTE RIS TE DAE T. ERBEN UR ENZSS T XURPBEZI. ARERR IBSESRUN, dE OM 

18" EX B, RAR AN read buf[ ] 缓 冲 区 中 己 经 有 了 数据 ， 却 并 不 马上 就 唤醒 可 能 正在 睡眠 中 等 

竺 看 要 从 该 终端 读 出 的 进程 ， 而 要 到 接收 到 “wn” 字符 (有 可 能 从 “\r” 转 换 而 来 ， 见 557 行 ) 以 后 ， 或 

IKE] EOF. EOL 等 字符 时 才 来 唤醒 ( 见 660 47). FALL, ESE “规范 ”模式 ， 包 括 原 始 模 式 下 ， 

则 只 要 缓冲 ix. 中 的 字 节 数量 达到 预先 设 定 的 minimum_to_wake， 就 会 唤醒 止 在 睡眠 等 待 的 进程 ， 测 
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minimum_to_wake 一 般 是 1。 具 体 地 ， 这 发 生 杆 从 n tty receive char( R IHIFI] n_tty_receive_buf( ) 以 后 ， 
为 便于 阅读 ， 我 们 把 有 关 的 几 行 代码 再 列 出 于 下 (drivers\char\n_tty.c)。 


[console_softint( ) > run task queue( ) > flush to ldisc( ) > n tty receive buf()] 


761 if (Itty->icanon && (tty->read cnt >= tty-^minimum to wake)) { 
762 kill fasync(&tty-^fasync, SIGIO, POLL IN); 

763 if (waitqueue_active (&tty—>read_wait) ) 

764 wake up interruptible(&tty-^read wait); 

765 ) 


这 里 的 762 ATH VO, ded RIS “RAWA select( ) 与 异步 UO 一 节 ”。 

Be ERU IDE EI, AIG HAA tasklet， 键 盘 本 身 也 有 个 bh 函数 kbd. bh( )， 不 过 这 个 bh PRAE 
处 理 的 只 是 键盘 上 的 发 光 二 极 管 ， 所 以 对 于 键盘 的 读 操作 没有 什么 影响 。 这 个 bh 函数 的 代 僻 在 
drivers/char/keyboard.c 中 ， 我 们 就 不 看 了 。 


8.9 用 串 行 外 部 总 线 USB 


8.9.1 USB 总 线 简 介 


USB(Universal Serial Bus) 总 线 足 20 世纪 90 年 代 发 展 起 来 的 “种 “通用 品行 外 部 总 线 ”， 目 前 在 
使 用 中 的 基本 上 是 1998 年 公布 的 USB 1.1 版 。 最 新 的 版 本 是 USB 2.0， 目 前 已 有 心 片 批 入 市 场 ， 但 是 
有 关 的 产品 (设备) 还 不 多 ,而 支持 2.0 版 的 设备 最 动 程序 (以 及 相 访 版 本 的 操作 系统 ) 则 一 般 还 在 开 
发 或 试 运 行 阶段 。 

BÆ, USB 是 ”种 “总 线 ”。 与 传统 的 外 部 设备 与 主机 之 间 的 连接 方式 相同 ， 它 允许 将 不 同 种 类 
的 外 部 设备 混合 连接 到 同一 个 接口 上 。 可 是 ， 它 义 与 计算 机 内 部 的 总 线 ( 如 PCI 总 线 ) 不 同 ，CPU 不 能 
通过 访 内 指令 或 VO 指令 直接 访问 连接 在 USB 上 的 设备 ， 而 要 通过 一 个 “USB 控制 器 ”， 间 接地 与 连 
RE USB LMR BIT ACH, USB 总 线 存 在 于 所 以 说 是 外 部 总 线 。 还 有 ，USB 的 信和 总 
线 一 共 只 有 两 条 外 加 两 条 电源 线 ) ， 线 上 的 信号 是 品行 的 ， 所 以 是 “品行 外 部 总 线 ”。 至 于 说 “ 通 
H”, MERA USB 总 线 的 设计 从 … ey 从 低速 的 键盘 和 鼠标 
等 “人 机 交互 设备 (HID)”， 到 速度 较 岛 的 通信 设备 (如 Modem) 和 存储 设备 (如 CDROM)， 力 全 摄像 机 
利 显示 嚣 等 多 媒体 设备 ， 上 只 紫 带 有 USB 接口 就 都 可 以 连接 到 USB 总 线 上 ， 并 且 品 以 在 计算 机 之 电 的 
条 件 F “IRMA” (plug and play). 

在 传统 的 计算 机 系统 结构 中 ， 接 口 卡 可 以 看 作 是 相应 外 部 设备 的 一 部 分 ， 就 好 像 是 外 部 设备 派驻 
在 主机 内 部 的 联络 员 一 样 。 所 以 ， 每 一 个 接 曲 一般 都 只 能 连接 A 到 同一 种 的 设备 。 虽 然 通 过 所 谓 “菊花 
链 ”(daisy chain) 方 式 可 以 把 若 十 同 种 设备 连接 伸 同 一 接 山 上 ， 却 不 能 将 不 同 种 类 的 设备 漆 合 连接 到 问 
一 接口 上 上。 显而易见 ， 这 种 结构 的 本 扩充 性 很 差 ， 因 为 串 以 搬入 主机 的 接口 卡 数量 总 是 有 限 的 。 事 实 
上 ， 应 用 中 很 早 就 有 了 企 同 一 接口 上 混合 连接 不 同 设备 的 要 求 。 例 如 在 并 行 口 上 上 既 连 接 打 纯 机 又 连接 
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扫描 仪 、 可 能 还 要 再 连 上 上 A "Zip 驱动 瞧 ”， 就 反映 了 这 样 的 要 求 。 而 且 ， 妈 使 二 机 中 有 足够 多 的 持 
槽 ， 也 还 是 有 很 多 问题 ， 例 如 中 断 向 量 的 分 配 和 管理 、 接 口 卡 的 成 本 等 等 ， 甚 至 因 大 多 的 连接 电缆 挤 
在 -起 而 造成 的 困难 也 是 个 问题 。 特 别 倩 得 一 提 的 是 : 要 插入 ， 块 接 口 卡通 常 得 要 打开 机 盖 并 且 关 闭 
电源 ， 币 不 能 在 系统 加 电 的 情况 下 随意 增 减 设备 。 在 这 样 的 条 件 下 ， 所 谓 “ 现 插 现 用 ”实际 上 是 很 难 
真正 成 为 现实 的 。 随 着 计算 机 应 用 的 日 益 普 及 ， 这 些 问题 就 剑 来 您 突出 了 。 

另 一 方面 ， 更 为 重要 的 是 : 电话 设备 与 计算 机 的 结合 以 及 多 媒体 技术 的 发 展 ， 也 对 外 部 设备 的 连 
接 与 驱动 捉 出 了 新 的 要求 。 在 电话 设备 (以 及 多 媒体 设备 ) 中 普 过 采用 所 请“ 等 时 ”(isochronous) 传 输 方 
式 ， 遂 常 将 一 个 容量 较 大 的 信道 按时 间 划 分 成 若 十 较 小 的 音频 或 视频 信道 。 例 如 “T1” 传 输 线 就 是 将 
一 个 1.54Mb 的 信道 按时 间 划 分 成 8000 个 24 TI Wi” (frame), mf SET UT) 24 个 学 入 义 分 别 用 十 
24 个 64Kb 的 数字 化 话音 信道 ， 使 每 个 话音 信道 在 每 125 微 秒 的 时 间 内 就 能 传送 一 个 字 节 。 与 传统 的 
传输 方式 相 比 ， 等 时 使 输 有 两 大 特点 。 第 一 ， 等 时 传输 有 比较 严格 的 时 间 要 求 ， 必 须 为 人 等 个 信道 维持 
均匀 的 流量 。 例 如 ， 如 果 对 音频 信号 的 传输 忽 快 忽 慢 ， 那 么 重 放出 来 的 声音 就 会 变 成 有 如 磁带 录音 机 
转速 不 稳 时 那样 的 怪 声 怪 调 。 相 比 之 下 ， 传 统 的 计算 机 外 部 设备 《例如 从 磁盘 读 入 文件 时 ) 则 并 没有 
这 样 的 要 求 。 第 二 ， 等 时 传输 对 误 码 的 要 求 不 高 ， 少 量 的 误 码 〈 上 其 伞 玉 失 少量 数据 ) 对 十 音频 表现 为 
噪音 ， 对 视频 则 表现 为 画面 上 的 一些 “省 花 点 ”， 都 还 是 可 以 容忍 的 。 所 以 等 时 传输 不 需要 有 CRC R 
验 、 奇 偶 校 验 - -类 的 检 错 手段 。 其 实 ， 周 怕 明 知 传输 中 有 错 ， 甚 至 丢失 ， 也 不 能 要 求 对 方 重 发 ， 因 为 
由 重 发 而 造成 的 延迟 很 可 能 反 上 更 不 能 容忍 。 友 之 ， 传 统 的 计算 机 外 部 设备 对 误 码 的 葛 求 就 很 高 ， 所 
以 通常 都 带 有 检 错 的 乎 段 ， 如 果 发 现 出 错 就 要 重 发 。 不 过 ， 实 际 上 等 时 传输 总 是 有 一 定 的 缓冲 ， 所 以 
只 要 是 在 一 定 的 限度 内 ， 时 间 上 略 有 球 移 也 是 允许 的 。 总 之 ， 等 时 传输 基本 上 是 周期 性 的 ， 但 是 又 并 
非 严格 意义 上 的 周期 信号 ， 并 日 收 发 双方 也 并 不 需要 严格 意义 上 的 同步 。 例 如 ， 在 上 击 讲 到 的 “TI1” 
传输 线 上 ， 接 收 方 只 需 知道 哪 一 点 是 一 个 帧 的 起 点 ， 却 不 需要 知道 到 底 是 哪个 帧 的 起 点 ， 央 为 相差 
10 个 帧 也 不 过 是 1.25 毫秒 ， 通 话 的 双方 都 感觉 不 到 。-… 个 婴 定 而 不 大 大 的 延迟 是 允许 的 《就 像 越 洋 电 
TEASE) 。 这 样 的 传输 方式 加 称 为 等 时 传输 ， 这 并 不 是 新 技术 ， 但 是 以 前 的 计算 机 外 部 设备 中 没有 这 
方面 的 需求 。 而 在 20 世纪 90 年 代 初 ， 则 由 于 计算 机 与 电话 技术 相 结合 的 趋向 以 及 多 媒体 技术 的 发 展 ， 
而 使 之 提 到 了 口 程 上 。 以 电话 设备 为 例 ， 就 需 紫 姨 有 支持 容量 较 大 的 等 时 方式 传输 《用 丁 放 育 ) ， 又 
支持 报 文 传递 《用 于 控制 ) 的 外 设 接口 。 同 时 ， 这 种 外 设 接口 仍然 要 适合 于 传统 的 外 部 设备 。 

USB 正 是 在 这 样 的 背景 下 发 展 起 来 的 。90 年 代 初 ， 人 们 已 经 在 设备 驱动 、 数 据 通信 、 局 部 网 络 以 
及 大 规模 集成 电路 等 方面 积累 了 丰富 的 经 验 ，USB 的 设计 从 各 方面 都 吸取 了 营养 ， 出 大 规模 集成 电路 
技术 则 为 USB 的 实现 葛 定 了 物质 基础 ,从 90 年 代 中 期 开始 生产 的 PC 机 几乎 毫 无 例外 地 全 都 带 有 USB 
接口 。 

从 功能 [上 讲 ， 主 机 的 USB 接口 既 可 以 通过 USB 电缆 直接 连接 到 一 台 支 持 USB 的 外 部 设备 (我 们 
称 之 为 “USB 设备 ”) ， 也 可 以 先 连 接 到 一 个 “USB RHI” (USB Hub)， 再 由 集 沾 器 分 义 连接 到 其 
他 集中 器 或 外 部 设备 ， 从 而 形成 一 种 星 形 结构 。 每 根 USB EI KEE 16 OCA 5 米 )， 通 过 集中 器 级 
连 时 最 多 可 以 穿越 S 个 集中 器 ， 从 而 使 最 人 半径 达到 96 (A 29 米 )。USB 上 的 信号 传输 速度 有 了 两 种 ， 
一 种 是 “低速 ” (Low Speed)， 为 每 秒 1.5 兆 位 ， 用 十 外 接 键盘 、 忌 标 器 等 低速 设备 (第 称 为 HID， 即 
“人 机 交互 设备 ”);， 另 一 种 是 “全 速 ” (Full Speed)， 为 每 秒 12 兆 位 (作为 比较 ，Ethernet 的 速度 是 每 
秒 10 兆 位 )， 用 于 一 般 的 外 部 设备 ， 包 括 音 频 和 视频 ， 两 种 速度 的 设备 可 以 混用 。 在 后 来 公布 的 USB 
标准 2.0 版 中 ， 在 此 基础 上 又 增加 了 一 种 传输 速度 ， 称 为 “高 速 ”(High Speed)， 达 到 每 秒 480 兆 位 ， 
USB 设备 可 以 在 系统 加 电 的 条 件 下 自 出 地 插 上 或 拔 下 ， 称 为 “ 热 插入 ”。 询 且 ， 对 耗 电 量 很 小 的 设备 
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或 集中 器 还 可 以 用 主机 通过 USB 电线 供电 。 

凡是 支持 USB 的 外 部 设备 ， 即 USB 设备 (集中 器 是 一 种 特殊 的 USB 设备 )， 都 带 有 USB 通信 控制 
器 ， 里 而 实际 上 包括 了 “个 微 处 理 器 。 由 此 可 见 ，USB 的 实现 和 推广 在 大 规模 集成 电路 技术 还 不 发 达 、 
微 处 理 器 还 比较 贵 的 时 代 是 不 现实 的 。 由 于 主机 和 和 USB 设备 都 带 有 控制 器 ， 而 主机 中 的 控制 器 起 着 核 
心 的 作用 。 为 了 防 目 混淆 ， 一 般 把 十 机 一 方 的 控制 器 称 为 “ 主 控 制 辫 ”(Host Controller， 和 党 缩写 为 HC). 
不过 ， 在 本 书 中 并 不 关心 设备 一 方 的 操作 ， 所 以 讲 到 “USB 控制 器 ”时 总 是 指 主 控制 虎 。 除 主 控制 器 
外 ， 每 条 USB 总 线 一 定 有 个 “ 根 集中 器 ”， 通 稼 与 主 控制 器 集成 在 同一 蔚 片 中 。 

另 一 方面 ,由 此 也 可 看 出 ,在 基 种 意义 上 也 可 以 把 USB 看 成 是 -种 计算 机 网 络 ， -种 主 /从 结构 的 
星 形 网 络 。 之 所 以 说 是 主 /从 结构 ， 是 因为 信息 在 USB 上 的 传输 只 能 由 主机 启动 ， 而 个 能 由 设备 启动 ， 
设备 永远 处 于 被 动 的 地 位 。 

通过 以 上 的 简介 ， 读 者 已 可 了 解 : 对 十 主 机 系统 ，USB 实际 上 是 USB 控 制 器 ) AYE XA 
备 ， 但 是 对 USB 操 作 汪 身 并 不 是 终极 的 目的 ， 出 是 为 了 通过 USB 对 有 具体 的 外 部 设备 进行 攀 作 。 换 言 之 ， 
对 USB 的 操作 是 于 段 而 不 是 口 的 。 然 而 ， 在 另 一 方面 ， 这 种 于 段 却 有 吕 能 比 目 的 更 复杂 ， 因 此 有 必 此 
特别 加 以 介绍 。 | 

USB 的 信息 传输 方式 是 比较 特殊 的 (具有 网 络 和 数据 通信 背景 的 读者 则 可 能 会 觉得 很 自然 )。 

Bt, USB 通过 具有 :定格 式 的 “信人 包 ”(packet) 按 定 的 “规程 ”(protocoD) 传 输 信 息 ， 并 根据 
信息 (内 容 ) 的 性 质 分 成 如 下 4 种 传输 类 起 ; 

(D) ”控制 型 (ControlD)。 主 要 用 于 设备 的 “配置 ”与 控制 。 信 和 包 的 容量 可 以 古 8、16、32 战 64 宁 节 ， 

取决 于 具体 的 设备 (低速 设备 上 只 支持 8 字 节 )。 在 USB 的 整个 带宽 (传输 能 力 ) 中 ， 右 10% ALA 

这 种 信息 保留 的 。 这 台 是 说 ， 只 要 有 足够 多 的 控制 型 信息 等 着 要 传递 ， 就 必须 保证 有 10901] 

此 宽 用 十 这 些 信息 ， 其 他 信息 再 多 也 不 能 把 这 部 分 带宽 给 挤 掉 。 但 是 ， 如 果 没 有 足够 多 的 控 

制 型 信和 总 要 传递 , 则 可 以 把 这 部 分 带宽 用 于 其 他 类 型 的 信息 。 控 制 型 信和 包 的 传递 是 带 有 检 错 、 
须 由 接收 方 加 以 确认 的 “可 靠 ” 传 递 ， 如 果 发 现 传输 出 错 就 要 重 发 。 

(2) ”等 时 型 (Isochronous)}。 主 要 用 十 实时 的 音频 和 视频 信和 号。 这 种 信息 是 周期 性 的 ， 又 是 实时 的 ， 
对 信息 传递 是 否 及 时 有 很 高 的 要 求 ， 人 得 是 对 误 码 却 比 较 能 容忍 。 所以， 保证 用 于 等 时 型 信息 
的 带宽 起 很 重要 的 。USB 为 等 时 型 信息 和 中 断 型 信息 (也 起 周期 性 的 ) 保 留 90% 的 带宽 (如 果 有 
足够 多 的 周期 性 信息 此 传递 )。 另 一 方面 ， 等 时 型 信息 的 传递 不 带 检 错 ， 也 个 需 紫 确认， 因 暂 
就 不 存在 重 发 的 问题 。 等 时 卉 传 输 的 借 包 通常 较 大 ， 最 高 可 达 1023 字 他。 

(3) ”中断 型 (Interrmpt)。 名 日 “中 断 ” 型 ， 实 际 上 却 是 用 于 对 USB 设备 的 周期 性 查询 。USB 设备 
不 存在 主动 向 主机 发 送 “中断 请 求 ” 的 能 力 ， 只 能 被 动 地 受 主机 通过 USB 总 线 查 询 。 中断 型 
信息 的 传递 讨 有 时 间 上 的 烛 求 ， 芭 必须 是 可 靠 传 递 ， 但 是 信和 包 较 小 。 信 和 包 大 小 与 控制 型 伯 包 
相同 。 中 断 型 信息 和 等 时 型 信息 二 者 合 在 一 起 不 能 超过 USB 总 线 带宽 的 90%. 

(4) 成 块 型 (Bulk)。 用 才 信 息 量 相对 较 大 ， 没 有 很 刚 的 时 间 要 求 ， 但 是 要 求 下 靠 传递 (市 有 惟 错 ， 
接收 方 须 确认 ) 的 信息 。 对 成 由 型 信息 的 传递 在 时 间 上 是 没有 保 让 的 ，USB 总 线 不 为 成 块 型 
信息 保留 带宽 ， 只 是 在 执行 了 前 二 种 传输 以 后 还 有 时 间 剩 余 时 来 执行 成 块 型 传输 。 信 和 包 的 
容量 取决 定 于 具体 的 设备 ， 但 最 大 不 超过 1023 学 节 。 

同时 ，USB 控制 器 把 总 线 上 的 时 间 划 分 成 固定 大 小 的 “frame”， 即 “ 框 课 ”《 我 们 把 frame 这 个 
词 翻 译 成 “框架 ”而 不 是 “ 帧 ”， 一 来 与 网 络 技术 中 的 “ 帧 ”有 所 区 别 ， :来 意义 上 也 似乎 更 为 贴切 ) 。 
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每 个 框架 的 大 小 是 工 毫 秒 。 在 每 个 框架 中 主机 者 可 以 与 USB ZR ER RH a RIKI Sa, PUE 
每 一 特定 的 时 刻 只 能 在 一 个 方向 上 发 送 ， 所 以 是 “ 半 双 下” 链 路 。 主 机 与 设备 之 问 的 通信 只 能 由 主机 
启动 ， 而 设备 则 永远 处 于 从 属 的 、 被 动 的 地 位 。 因 而 主机 与 设备 间 赴 主 / 从 关系 。 在 每 “个 框架 内 可 以 
有 许多 个 主机 与 设备 间 的 “交互 ”(Transaction)， 妈 二 者 间 若 干 信和 包 的 交换 。 每 个 信和 包 传 递 的 方向 可 以 
起 从 主机 到 设备 ， 也 可 以 是 从 设备 到 主机 ， 但 是 每 个 父 互 中 的 第 -个 信和 包 总 是 从 主机 人 到 设备 ， 因 为 只 
有 主机 可 以 发 起 一 次 交互 。 信 和 包 的 大 小 因 传 输 方 式 和 设备 类 型 而 寞 ， 对 丁 全 速 设备 的 控制 ( 模 ) 传 输 最 大 
为 64 字 节 ， 对 低速 设备 则 不 超过 8 个 字 节 ,但 是 等 时 (型 ) 传 输 的 信人 包 可 达 1023 字 节 。 等 个 框架 的 开头 
总 是 由 主机 向 总 线 上 的 所 有 设备 广播 .个 特殊 的 “框架 开始 ”(SOF) 信 人 包 ， 作 为 ”种 同步 手段 。 EX 
划分 是 全 性 的 、 没 有 弹性 的 ，|I 时 候 I, EALE USB 控制 占 就 发 出 SOF 信和 包 。 

主机 与 USB 总 线 上 各 设备 乙 问 的 位 同步 , 靠 调 制 在 仿 号 波形 中 的 时 钟 脉冲 实 山 ,框架 的 同步 靠 SOF 
信息 实现 ， 向 信和 包 的 同步 则 靠 仿 包 头 部 的 特 蛛 格式 实现 。 

一 般 而 首 ， 卡 机 与 设备 之 间 的 信息 传递 又 可 以 根据 其 日 的 分 成 两 种 。， -种 是 应 用 信息 的 传递 ， 包 
括 数据 以 及 由 有 共 体 设备 规定 的 ，: 些 应 几 层 上 的 控制 /状态 信息 ， 例 如 符 打 印 的 字符 申 ， 又 如 对 扫描 器 的 
“开启 光源 ”命令 、“ 开 始 扫 描 ” 命 令 等 等 ， 就 属 十 这 一 种 。 从 传输 的 角度 看 ， 这 些 信 息 对 于 USB 总 
线 是 “透明 ”的 ，USB 总 线 只 是 把 这 些 信息 以 信和 包 的 形式 作为 万 格 式 字 自流 传递 给 对 方 ， 而 并 不 关心 
其 内 容 ， 也 不 规定 其 格式 。 妆 然 ， 应 用 软件 以 及 具体 设备 的 驴 动 程序 可 以 日 己 规 定 这 些 信 息 的 格式 。 

男 一 种 是 USB 总 线 为 绯 持 其 本 身 的 正常 运行 和 管理 所 需 的 se "USB 层 ” 的 控制 /状态 信息 ， 例 
m, JETER 设备 是 否 还 在 总 线 上 运行 ,或 者 此 了 解 质 一 设备 都 具有 哪些 功能 ， 就 需要 从 设备 读 
入 其 作为 USB 设备 必须 提供 的 状态 信息 ， 等 等 。 我 们 有 时 称 此 种 控制 /状态 信息 为 “高 技 ” 控 制 /状态 
信息 ， 之 所 以 称 为 “高 层 ” 是 为 了 与 卜 面 所 说 的 低层 控制 /状态 信息 相 区 别 。USB 总 线 为 这 些 信息 规定 
了 特定 的 格式 ， 例 如 后 面 要 讲 到 的 设备 描述 体 、 接 口 描述 体 等 等 。 不 过 ， 根 据 其 体 的 情况 ， 企 传递 控 
制 / 状 态 信息 时 往往 也 可 以 附加 传递 些 应 用 信心。 

ASK, USB 总 线 上 上 信息 传输 的 目的 就 在 于 传递 这 些 应 用 信息 利 “ 高 层 ” 控 制 /状态 信息 。 可 是 ,为 
启动 传递 这 些 信息 以 及 保证 这 些 信 息 得 公司 靠 的 传递 ， 还 需要 传递 一 些 附 加 的 信息 。 这 些 信息 的 传 
递 本 身 并 不 是 日 的 ， 调 只 是 为 达到 十 述 口 的 而 采取 的 于 段 。 

每 次 高 层 控 制 /状态 信息 或 者 (以 及 ) 应 吊 信息 的 传递 称 为 一 次 “传输 ”(transfer)， 基 | 信息 类 型 的 不 同 
可 以 分 成 上 述 控制 、 中 断 、 等 时 以 及 成 块 4 种 。 同 时 ， 按 传输 的 方向 义 可 分 成 输入 利 输出 由 种 。 每 次 
传输 都 由 一 -次 或 数 次 “交互 ”构成 。 每 次 交互 义 包 括 三 个 信和 色 ( 等 时 传输 的 父 互 例外 、 只 有 两 个 仿 包 ) 
的 传递 ， 其 中 第 个 信和 包 总 是 由 主机 发 出 的 低层 控制 信息 ， 称 为 “传令 ”(tokem) 信 和 包 ， 信 和 包 的 内 容 表 
明了 父 互 的 对 象 以 及 后 续 作 包 的 传递 方向 ;然后 是 一 个 载运 着 应 用 信心 己 高 层 控制 /状态 信和 以 的 信和 包 ， 
BRA “Hea” (data ti: fee UAE LU fer Do P HAC AZ AM XS AA I LB “RR” 
(handshake)faf]. Bit, ASIA XN ASH PRI A RUE Rae, SrA ES. uM, 
fh > f& ELRI DEF fei BT BUS UA fe EC B. SSH "EET PERK AEB, TETERR Ef AIT LO 
的 高 层 控 制 /状态 信息 。 高 层 控制 /状态 信息 的 口 的 在 丁 维 持 USB 总 线 的 正常 运行 和 管理 ， 而 低层 控制/ 
状态 信息 的 日 的 在 于 保证 应 几 信 和 以 尸 岛 层 控制 /状态 信息 的 止 伍 传递。 每 个 交互 只 传递 “个 数据 信息， 
数据 信和 包 传 递 的 方 喇 即 为 交互 的 广 向 , 往往 也 就 是 传输 的 方 癌 。 交互 是 一 个 不 可 分 割 的 整体 , 其 三 个 (或 
两 个 ) 信 和 包 的 传递 必须 在 间 一 框架 中 完成 。 看 主机 发 出 传令 信和 包 ， 启 动 了 一 次 交互 以 后 ， 日 标 设备 必须 
立即 (在 规定 的 时 间 内 ) 作 出 反应 ， 或 从 主机 接收 数据 信 包 ,或 将 数据 仿 包 发 送 给 主机 ， 否 则 本 次 交 旦 便 
失败 了 。 而 一 次 传输 ， 如 果 包 合 多 次 交 并 ， 则 可 以 跨越 多 个 时 间 框 架 。 人 在 晶 述 的 4 种 传输 方式 中 , 成 
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块 、 等 时 和 中 断 三 种 应 用 信息 的 传输 都 只 包含 “种 (虽然 可 能 多 个 ) 交 互 ， 但 是 控制 (型 ) 传 输 则 一 役 击 要 
通过 三 种 个 同性 质 的 父 互 才能 完成 ， 称 为 控制 传输 的 三 个 “阶段 ”。 其 中 第 一 个 阶段 为 “SETUP” 阶 
段 ， 只 有 一 个 交互 ， 在 这 个 交互 中 传递 的 是 商 层 的 控制 命令 ， 如 “ 恋 配 置信 息 ”、“ 设 置地 址 ”等 等 。 
第 二 个 阶段 是 数据 阶段 ， 根 据 需 费 可 以 有 多 个 人 交 占 ， 也 可 以 没有 。 在 这 些 父 占 中 传递 的 是 与 本 次 命令 
相 联 系 的 信息 ， 也 可 以 是 一些 应 用 信息 ; 如 果 不 需 要 传递 这 样 的 信息 ， 则 也 可 以 跳 过 数据 阶段 。 第 三 
个 阶段 是 状态 阶段 ， 这 个 交互 中 传递 的 是 与 操作 县 标 有 关 的 状态 信和 总 。 相 比 之 下 ， 成 氛 、 等 时 和 中 斯 
二 种 传输 都 只 有 一 个 阶段 ， 即 数据 阶段 。 
总 之 ，USB 总 线 上 上 的 信息 流通 都 以 信人 包 的 形式 进行 。 按 照 信 和 包 的 性 质 和 作用 ， 可 以 分 成 下 列 几 类 ; 
(传令 (Tokem。 由 主机 发 出 ， 用 来 启动 -次 交互 。 除 本 次 父 互 日 标的 地 址 外 ， 信 息 中 还 含有 艾 
互 的 方向 和 性 质 ，IN 表示 输入 ，OUT dB. SETUP 则 用 于 控制 传输 的 局 动 。 
(2) 数据 。 根 据 交 互 的 方向 ， 由 主机 或 设备 发 出 ， 其 内 容 为 应 用 信息 或 高 层 控制 /状态 信息 。 
(3) 握手 。 由 数据 信和 包 上 或 传令 信和 包 的 接收 方 (或 集中 器 ) 发 出 ， 说 明 对 数据 依 包 或 传令 信和 包 的 接收 
情况 ，ACK 表示 成 功 ，NAK 表示 出 鲁 或 无 反应，STALL( 由 集中 顺 发 出 ) 表 示 不 能 接收 。 
(4) SOF。 用 于 框架 的 分 隔 ， 信 和 包 中 含有 框架 的 序 写 。 | 
(5) (WGKA BIA. (RRA EB Ma BLZ RUE Dn E- 个 特殊 的 前 缕 。 


每 个 物理 的 USB 设备 上 可 以 有 一 个 或 多 个 “功能 ”， 相 当 十 “逻辑 设备 ”。 华 有 些 没 备 中 ， 这 些 
功能 的 划分 和 组 合 是 可 以 改变 的 ， 此 时 一 种 特定 的 划分 和 组 合 就 称 为 一 种 “配置 ”(configuration)。 在 
这 方面 , 电话 通信 设备 就 是 很 典型 的 。 以 前 述 的 T1 设备 为 例 (中 国 采用 EL, 有 32 个 SKB 数字 化 信道 )， 
其 24 个 数字 化 信道 就 可 以 按 需 要 加 以 组 合 ， 例 如 将 其 中 的 12 个 信道 用 于 电话 ， 而 个 出 8 个 信道 组 合 
成 一 个 64KB 的 信道 用 十 互联 网 ， 剩 下 4 个 信道 则 用 作 通 向 4 个 营业 所 的 专线 和 连接， 这 就 是 个 具体 
的 配置 。 辐 时 ， 为 了 与 主机 通信 的 需要 ， 在 USB RE PRAT - 些 “ 端 点 ”(endpoint)。 每 个 端点 内 文 
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点 的 从 属 就 像 功 能 的 划分 一 样 是 可 以 改变 的 。 

主机 与 具体 USB 设备 的 连 系 在 概念 上 按 传输 类 型 和 对 象 的 不 同 而 分 成 许多 “管道 ”(Pipe)。 如 前 
所 述 ， 每 个 USB 设备 可 以 有 若干 个 “功能 ”， 每 个 功能 可 以 提供 芳 干 通信 “ 背 口 ”PorD， 而 主机 与 
每 个 端口 之 间 就 是 MELAS 〈 注 意 不 此 与 进程 同 通信 管道 混 消 》 。 

主机 负 有 调度 USB 总 线 上 信息 传输 的 责任 。 首 先是 把 系统 中 的 等 时 传输 流明 分 配给 各 个 时 间 框 染 。 
所 以 ， 每 个 等 时 传输 中 的 各 个 交 眶 明确 地 属于 茶 个 时 间 杠 架 。 生 条 USB 心 线 有 1024 个 时 间 框 架 ， 相 应 
地 就 有 1024 个 等 时 交互 队列 。 队 列 中 的 每 个 数据 结构 〈 称 为 “交互 描述 块 ”)》 都 代表 痢 个 属于 等 时 
传输 的 交互 请 求 。USB 总 线 控制 器 每 一 秒 钟 打 描 一遍 所 有 这 些 队 列 。 所 以 ， 和 他 个 队列 在 每 一 秒 钟 的 时 
间 内 得 到 一 次 执行 。 其 余 的 三 种 传输 请 求 都 不 分 配 到 县 体 的 时 间 框 架 ， 而 是 根据 传输 的 类型 排 在 答 日 
的 队列 中 。USB 总 线 控制 器 在 执行 完 每 个 框架 中 的 等 时 人 交互 以 后 就 会 来 执行 这 些 队列 中 的 父 妆 5 话 求 ) 。 
TENES CRAT ANO 是 以 交互 为 单位 挂 入 队列 ， 而 控制 传输 和 成 块 传 输 则 以 传输 为 单位 挂 
入 队列 ， 生 个 控制 传输 或 成 块 传输 本 身 又 起 一个 交互 请 求 的 队列 〔 邮 使 队列 由 只 有 一 个 交互 〉。 

完成 了 对 各 种 交互 请 求 的 调度 ， 建 立 起 相应 的 数据 结构 和 队列 以 后 ，CPU 就 完成 了 任务 ， 以 后 跌 
EUSB 总 线 控制 器 的 事 了 。 在 运行 中 , USB 总线 控 制 嚣 根据 其 内 部 对 时 钟 脉冲 的 计数 确定 在 什么 时 候 
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开始 一 个 框架 以 及 哪个 框架 ， 接 着 就 “执行 ”该 框架 的 等 时 交互 队列 。 然 后 ， 执 行 完 .个 框架 的 等 
时 交互 以 后 , 偿 要 执行 若干 中 断交 互 。 到 执行 尘 一 个 杠 架 的 等 时 交互 和 中 断交 于 时 , 应 该 至 少 还 有 10% 
的 时 间 剩 余 ， 此 时 就 来 执行 其 他 队列 ，， -直到 框架 中 镜 余 的 时 间 已 不 足以 完成 一 次 人 交互、 而 只 好 停 下 
来 等 待 下 一 个 框架 为 止 。 对 寺 控 制 传输 和 成 块 传输 的 交 芋 请 求 队列 《也 就 是 对 每 个 控制 传输 或 成 块 传 
输 ) ， 执 行 时 有 两 种 不 同 的 方式 。 一 种 称 为 “纵向 执行 ”， 就 是 先 顺 着 一 个 队列 执行 完 所 有 的 交互 请 
求 ， 再 开始 另 一 个 队列 ， 另 一 种 称 为 “横向 执行 ”， 就 是 在 :个 队 刻 中 执行 一 个 〈 或 几 个 ) 交互 请 求 ， 
然后 就 较 到 下 一 个 队列 中 。 等 时 交互 和 中 断交 互 在 执行 以 后 仍 留 在 队列 中 ， 而 控制 交互 和 成 块 交互 则 
在 执行 以 后 由 USB 总 线 控制 器 自动 予以 脱 链 。CPU 仅 在 需要 改变 调 度 或 处 理 传 输 结 果 时 才 需 要 介入 。 

可 见 ，USB 上 的 信息 传输 ， 尤 其 是 主机 一 侧 的 过 程 ， 是 个 相当 复杂 、 并 日 时 间 性 要 求 很 高 的 过 程 ， 
需要 硬件 和 软件 分 工 合 作 才能 完成 。 那 么 怎样 分 上 了 呢 ? 这 就 需要 在 硬件 和 软件 之 问 划 出 “个 标准 的 “ 主 
机 控制 器 界面 ”。 目 前 有 两 种 这 样 的 界面 。 一 种 是 由 Intel 制定 的 ， 称 为 “Universal Host Controller 
Interface" , 44554 UHCI; 另 一 种 是 出 Compaq. Microsoft 以 及 National Semiconductor 联合 制定 的 ， 
称 为 “Open Host Controller Interface”， 缩 写 为 OHCT。 大 体 上 说 ，OHCI 把 更 多 的 功能 划 到 硬件 一 边 ， 
从 而 相应 的 必 片 就 更 复杂 一 些 ， 软 件 则 可 以 简单 “ 些 : mp UHCI 则 让 软件 方面 多 了 涯 担 :- 些 ， 对 硬件 的 
要 求 就 相对 低 一 些 。 不 言 而 喻 ， 控 制 器 芯片 的 不 同 当然 会 导致 驱动 软件 的 不 同 ， 但 症 这 种 不 同 只 存在 
于 驱动 软件 的 低层 。 所 以 ，USB 总 线 的 驱动 程序 又 分 成 肉 层 ， 其 中 “USB 层 ” 是 共同 的 ， 在 它 下 面 则 
是 “HC” 层 ， 根 据 所 用 的 芯片 而 选用 UHCI 或 OHCI SRF. Linux 内 核对 者 都 提供 支持 ， 可 以 
通过 条 件 编 译 选 择 项 选用 。 对 OHCI 的 实现 在 drivers/usb/usb-ohci.c 和 drivers/usb/usb-ohci.h 两 个 文件 中 。 
对 UHCI 的 实现 则 又 有 两 种 ， 也 是 通过 条 件 编译 选择 项 选用 。 其 中 之 一 在 drivers/usb/usb-uhci.c 和 
drivers/usb/usb-uhci.h 两 个 文件 中 ， 另 一 种 则 在 drivers/usb/uhci.c 和 drivers/usb/uhci.h WA MER, 我 们 
在 本 节 中 阅读 代码 时 采用 后 者 ， 但 是 读音 应 该 不 难 举 一 反 二 。 我 们 之 所 以 选用 UHCI， 是 因为 UHCI 
的 软件 更 复杂 一 些 ， 但 是 读 了 以 后 对 USB 的 理解 会 更 深 一 些 。 日 前 ，Linux 内 核 2.4.0 版 所 实现 的 是 
USB 1.1 版 ， 以 后 肯定 很 快 就 会 支持 USB 2.0 f. 

BR USB 以 外 ， 大 约 在 同一 时 期 还 发 展 起 了 另 一 种 类 似 的 串 行 外 设 总 线 ， 称 为 “Firewire”。 后 来 
HH IEEE 加 以 标准 化 ， 成 了 IEEE1394 标准 ，Linux 内 核 也 支持 IEEE1394。 但 是 ， 从 市 场 的 情况 来 看 ， 
USB 已 经 得 到 更 为 广泛 的 应 用 ， 并 已 进入 良性 循环 ， 所 以 也 更 为 重要 ， 而 且 一 者 在 轴 辑 上 颇 为 相似 。 
本 书 既 然 花 了 较 大 的 篇 幅 介 绍 USB, ， 就 不 再 涉及 IEEE1394 了 。 内 核 中 与 此 有 关 的 代码 基本 上 都 在 
drivers/ieee 1394 下 和 耐 ， 有 兴趣 或 需要 的 读者 可 以 自己 加 以 研究 。 

此 外 , 还 要 提 一 下 并 行 外 设 总 线 。 氮 先 的 “并 行 口 ” 也 已 发 展 成 为 并 行 外 设 总 线 ， 并且 也 已 由 IEEE 
加 以 标准 化 , 成 为 了 IEEE1284 标准 ; 同样 ,Linux 内 核 也 支持 IEEE1284。 相 比 之 下 , TEEE1284 LE USB 
简单 ， 功 能 也 没有 USB 强 ， 使 用 也 没有 USB 方便 ， 估 计 可 能 会 慢 慢 被 USB 取代 。 限 于 本 书 的 篇 幅 ， 
我 们 也 个 能 在 此 介绍 IEEE1284 了 。 与 此 有 关 的 几 个 文件 在 drivers/parport FI, XH ONE. 

从 串 行 口 和 并 行 口 朝 着 串 行 外 设 总 线 和 并 行 外 设 总 线 的 发 展 过 程 中 ， 我 们 可 以 看 出 在 传统 的 设备 
驱动 层 中 正在 形成 一 个 新 的 子 层 。 使 用 这 些 总 线 以 后 ， 原 来 的 “底层 ”了 驱动 程序 现在 要 依靠 相应 总 线 
驱动 程序 所 提供 的 服务 才能 访问 日 标 设备 了 。 似 平 可 以 说 :内 核 在 设备 驱动 方面 的 重点 正在 从 提供 直 
接 的 设备 驱动 巾 提 供 实 现 设 备 驱 动 的 手段 和 环境 转移 。 
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8.9.2 USB 总 线 的 初始 化 和 USB 设备 的 枚 举 


我 们 先 看 USB 总 线 本 身 的 初始 化 。 首 先 ，USB 控制 器 (连同 根 集中 器 ) 连 接 在 PCI 总 线 上 ， 是 一 个 
PCI 设备 ,在 PCI 总 线 的 初始 化 过 程 中 也 会 受到 枚 举 。PCI 设备 的 初始 化 完成 以 后 ,在 PCI IERI USE 
有 了 代表 着 具体 USB 总 线 控制 器 的 pci, dev 数据 结构 , 并 已 为 控制 器 的 VO 区 间 和 RAM 区 间 分 配 和 设 
置 了 总 线 地 址 。 

在 USB 总 线 控制 器 的 设备 驱动 程序 方面 ， 则 要 为 其 准备 下 -个 pci driver 数据 结构 ， 其 类 型 定义 
1E include/linux/pci.h "P: 


449 struct pci driver | 


450 struct list head node; 
451 char *name; 
452 const struct pci device id *id table; /* NULL if wants all devices */ 
453 int (probe) (struct pci dev *dev, const struct pci device id xid); 
/* New device inserted */ 
454 void (*remove) (struct pci dev *dev) ; /* Device removed (NULL if not 
a hot-plug capable driver) */ 
455 void (*suspend) (struct pei dev *dev); /* Device suspended */ 
456 void (#resume) (struct pci dev *dev); /* Device woken up */ 
457  ]; 


这 个 数据 结构 为 通用 的 PCI 设备 管理 机 制 提供 了 几 个 函数 指针 ， 特 别 是 为 - 个 通用 的 、- - 般 化 的 
PCI 设备 初始 化 过 程 提 供 了 站 数 指针 probe。 供 这 个 PCI 设备 的 初始 化 过 程 “ 回 叫 ”， 以 完成 具体 设备 
的 初始 化 。 对 于 遵循 UHCI 界面 的 USB 控制 器 ， 其 pci driver 数据 结构 为 uhci_pci_driver， 定义 于 


drivers/usb/uhci.c: 


2458 static struct pci driver uhci pci driver = | 


2459 name: "usb-uhci^, 

2460 id table: — &uhci pci ids [0], 
2461 

2462 probe: uhci pci probe, 
2463 remove: uhci pci remove, 
2464 

2465 #ifdef CONFIG PM 

2466 suspend: uhci pci suspend, 
2467 resume: uhci pci resume, 
2468 Hendif /* PM */ 

2460 13 


结构 中 的 指针 id table 应 该 指向 一 个 pei device id 结构 数组 ， 表 明 由 这 个 数据 结构 所 确定 的 设备 
驱动 程序 适用 于 哪 一些 PCI 设备 。 对 此 ，drivers/usb/uhci.c 中 相应 地 定义 了 数组 uhci_pci_ ids[ ]: 
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2441 static const struct pci device id __devinitdata uhci pci ids [ ] = { { 
2442 


2443 /* handle any USB UHCI controller */ 
2444 class: ((PCL CLASS SERTAL USB << 8) | 0x00), 
2445 class mask: 70, 

2446 

2447 /* no matter who makes it */ 

2448 vendor: PCI ANY ID, 

2449 device: PCI ANY ID, 

2450 subvendor: PCI ANY ID, 

2451 subdevice: PCI ANY ID, 

2452 

2453 ), { /* end: all zeroes */ } 

2454  ]; 


从 其 定义 可 以 看 出 ， 它 适用 于 所 有 类 型 为 PCL CLASS. SERIAL USB. TRH 0 的 PCI 设备 ， 
BN USB 控制 右 ， 而 不 管 是 由 哪 家 厂商 提供 。 

准备 好 这 些 数据 结构 以 后 ， 就 可 以 通过 inline 函数 pci_module_init( ) 向 系统 登记 具体 的 设备 驱动 程 
序 ， 并 对 设备 进行 初始 化 。 共 代码 在 include/linux/pci.h 中 : | 


602 /* 

603 * a helper function which helps ensure correct pci driver 

604 * setup and cleanup for commonly-encountered hotplug/modular cases 
605 * 

606 * This MUST stay in a header, as it checks for -DMODULE 

607 */ 

608 static inline int pei_module_init (struct pci driver *drv) 

609 { 

610 int rc = pci register driver (dry): 

611 

612 if (re > 0) 

613 return 0; 

614 

615 /* iff CONFIG HOTPLUG and built into kernel, we should 

616 * leave the driver around for future hotplug events. 

617 * For the module case, a hotplug daemon of some sort 

618 * should load a module in response to an insert event. */ 
619 Hif defined(CONFlG HOTPLUG) && !defined (MODULE) 

620 if (re == 0) 

621 return 0; 

622 #endif 

623 

624 /* if we get here, we need to clean up pel driver instance 
625 * and return some sort of error */ 

626 pci unregister driver (drv); 

627 

628 return -ENODEV; 
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这 里 通过 pci register driver( ) 完 成 PCI 设备 驱动 程序 的 登记 和 初始 化 ， 这 就 是 前 面 所 讲 的 通用 、 
一 般 化 的 PCI 设备 初始 化 过 程 。 这 个 函数 返回 一 个 计数 ， 表 示人 在 PCI 总 线 上 找到 了 几 个 这 样 的 设备 。 
一 般 ， 如 果 这 个 函数 返回 0 就 要 调用 pci_unregister_driver( ) 撤销 登记 ， 介 是 如 果 PCI 总 线 允 许 “ 热 插 
入 ”。 即 在 加 电 以 后 的 运行 过 程 中 带电 插入 设备 ， 而 驱动 程序 义 并 非 通过 可 安装 模块 实现 ， 则 不 应 撤销 
登记 (621 行 ); 因为 以 后 热 插 入 此 种 设备 时 仍 需 要 执行 这 个 驱动 程序 ， 应 该 保留 着 ， 以 备 热 插入 此 种 设 
$27.85. PRM pci_register_driver( ) 的 代码 在 drivers/pci/pci.c 中 : 


[pci module, init( ) > pci register driver( )] 


324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 


int 


pci register driver (struct pci driver *drv) 


{ 


} 


struct pci dev **dev; 
int count = 0; 


list add tail(&drv-^node, &pci drivers); 
pci for each dev(dev) { 
if (!pei dev driver (dev) ) 
count += pci announce device(drv, dev); 


} 


return count: 


首先 将 USB 总 线 控制 器 的 pci driver 数据 结构 链 入 内 核 中 的 队列 pei. drivers, 这 就 是 所 请 “登记 ”。 
然后 通过 -个 循环 对 所 有 的 pei dev 数据 结构 调用 pci_dev_driver( )， 统 计 一 下 有 多 个 PCI 设备 尚未 与 
具体 的 蝶 动 程序 挂 上 和 多 。 这 个 函数 的 代码 在 drivers/pei/pci.c "P: 


[pci module. init( ) > pci_register_driver( ) > pci_dev_driver( )] 


456 
457 
458 
459 
460 
461 
462 
463 
464 
465 
466 
467 
468 


struct pci driver * 
pci dev driver(const struct pci dev *dev) 


{ 


if (dev driver) 

return dev-»driver; 
else 1 

int i; 

for (i=0; i&-PCI ROM RESOURCE; i++) 

if (dev->resourcelil].flags & IORESOURCE BUSY) 
return &pci compat driver; 

i 
return NULL; 
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如 果 一 个 设备 的 pci dev 结构 尚未 与 任何 驱动 程序 挂钩 ， 并 且 其 所 有 地 址 区 间 都 尚未 局 用 ， 则 
pci_dev_driver( ) 返 回 0。 这 样 的 pci. dev 结构 需 归 通过 pci_announce_device( ) 加 以 比 对 (drivers/pei/pci.c)。 


[pci module, init( ) > pci register driver( ) > pci announce. device( )] 
299 static int 


300 pci announce device (struct pci driver *drv, struct pci dev *dev) 
301 { 


302 const struct pci device id *id; 
303 int ret = 0; 

304 

305 if (drv->id_table) { 

306 id = pci match device(drv-^id table, dev); 
307 if (lad) 4 

308 ret = 0; 

309 goto out; 

310 } 

311 ] else 

312 id = NULL; 

313 

314 dev probe lock( ); 

315 it (drv->probe (dev, id) >= 0) | 
316 dev~>driver = drv; 

317 ret = 1; 

318 } 

319 dev_probe_unlock( ) ; 

320 out: . 

321 return ret; 

322 


林 想 而 知 ， 所 请 比 对 是 将 具体 设备 的 类 型 、 厂 家 等 等 在 PCT 枚 举 阶段 从 设备 收集 的 信息 与 USB OR 
动 程序 的 数组 uhci_pci_ids[ ] 进 行 比 对 ， 具 体 是 由 pci_match_device( ) 完 成 的 (drivers/pci/pci.c): 


[pci, module init( ) > pci register driver( ) > pci announce device( ) > pci match, device( )] 


284 const struct pci device id * 
285 pci match device(const struct pci device id *ids, const struct pci dev *dev) 
286 { 
287 while (ids—vendor |! ids->subvendor || ids—>class_mask) | 
288 if ((ids-»vendor == PCi ANY ID || ids—>vendor == dev->vendor) && 
289 (ids-»device == PCI ANY ID || ids->device == dev—>device) && 
290 (ids—>subvendor == PCI ANY ID || 
ids->subvendor == dev-^subsystem vendor) && 
291 (ids—>subdevice == PCI ANY ID || 
ids-^subdevice == dev-^subsystem device) && 
292 !((ids-»class ^ dev->class) & ids->class_mask)) 
293 return ids; 
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294 ids++; 
295 } 

296 return NULL; 
297 } 


URR RAHIT REIT 个 USB MER WAS. ERE EEF ERR ARRE probe 
对 其 进行 初始 化 。 对 于 遵循 UHCI 界面 的 USB AARAA AARRE uhci pci probe( )， 其 代码 在 


drivers/usb/uhci.c 中 : 


[pci module, init( ) > pci_register_driver( ) > pci announce, device( ) > uhci_pci_probe( )] 


2376 static int | devinit uhci_pci_probe (struct pci dev *dev, 
const struct pci device id *id) 


2377 { 

2318 int i; 

2379 

2380 /* disable legacy emulation */ 

2381 pci write config word(dev, USBLEGSUP, 0); 

2382 

2383 if (pci enable device(dev) < 0) 

2384 return -ENODEV; 

2385 

2386 if (Idev >irq) { 

2387 err (“found UHCI device with no TRQ assigned. check BTOS settings!^); 
2388 return -ENODEV; 

2389 } 

2390 

2391 /* Search for the TO base address.. */ 

2392 for (i = 0: i < 6; i++) { 

2393 unsigned int io addr = pci resource start(dev, i); 
2394 unsigned int io size - pci resource len(dev, i); 
2395 

2396 /* IO address? */ 

2397 if (l(pei resource flags(dev, i) & IORESOURCE I0)) 
2398 continue; 

2399 

2400 /* Ts it already in use? */ 

2401 if (check region(io addr, io size)) 

2402 break; 

2403 

2404 pci set master (dev); 

2405 return setup uhci(dev, dev-^irg, io addr, io size); 
2406 } 


首先 通过 pci enable device( ) 及 其 下 面 的 一 系列 子 程序 启用 作为 PCI 设备 的 USB To. EER 
数 都 在 drivers/pci/pci.c 或 arch/i386/kernel/pci-i386.c 中 ， 我 们 把 笑 们 留 给 读 背 自己 阅读 ， 作 为 对 PCI 总 
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线 节 的 复习 。 


[pci module, init( ) > pci register driver( ) > pci_announce_device( ) > uhci_pci_probe( ) 
> pci enable. device( )] 


242 
243 
244 
245 
246 
241 
248 
240 
250 
251 
252 
253 
204 
209 
256 
291 
298 
299 


f/** 


i 


* pci enable device Initialize device before it's used by a driver. 
* Gdev: PCT device to be initialized 


* 

* Initialize device before it's used by a driver. Ask low-level code 
* to enable T/O and memory. Wake up the device if it was suspended. 
* Beware, this function can fail. 

*/ 


nt. 


pci enable device (struct pci dev *dev) 


{ 


} 


int crr; 


if ((err = pcibios enable device(dev)) < 0) 
return err; 

pci set power state(dev, 0); 

return 0; 


[pci module, init( ) > pci register driver( ) > pci_announce_device( ) > uhci pci probe( ) 
> pci enable device( ) > pcibios enable device( )] 


1042 
1043 
1044 
1045 
1046 
1047 
1048 
1049 


i 


{ 


nt pcibios enable device (struct pci dev *dev) 
int err; 


if ((err ~ pcibios enable resources(dev)) < 0) 
return err; 

pcibios enable irq(dev); 

return 0; 


[pci module, init( ) > pci register driver( ) > pci, announce, device( ) > uhci, pci. probe( ) 
> pci, enable device( ) > pcibios enable device( ) > pcibios enable, resources( )] 


306 
307 
308 
309 
310 
311 
312 
313 


i 


{ 
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nt pcibios enable resources (struct pci dev *dev) 


ul6 cmd, old cmd; 
int idx; 
struct resource *r; 


pci read config word(dev, PCI COMMAND, &cmd) : 
old cmd = cmd; 


ASR KARI 


314 for(idx-0; idx<6; idx++) { 

315 r = &dev-^resource[idx]; 
316 if (!r->start && r->end) { 
317 printk(KERN ERR 


"PCI: Device %s not available because of resource collisions\n’, dev-^slot name); 
318 return -EINVAL; 


319 } 

320 if (r->flags & LORESOURCE 10) 

321 cmd |= PCI COMMAND IO; 

322 if (r->flags & IORESOURCE MEM) 

323 cmd |= PCI COMMAND MEMORY; 

324 } 

325 if (dev—->resource[PC1_ROM_RESOURCE]. start) 

326 cmd |= PCI COMMAND MEMORY; 

327 if (cmd != old cmd) | 

328 printk("PCT: Enabling device %s (%04x -> %04x)\n", 
dev—->slot_name, old cmd, cmd); 

329 pci write config word(dev, PCI COMMAND, cmd); 

330 } 

331 return 0; 

332 } 


我 们 在 前 面 曾 说 USB 设备 没有 向 主机 发 出 中 断 请 求 的 能 力 ， 而 只 能 等 待 ， 受 主机 的 查询 。 但 是 这 
并 不 意味 着 USB 控制 器 (在 主机 中 ) 没有 向 CPU 发 出 中 断 请 求 的 能 力 ， 这 是 完全 不 同 的 两 回 事 ， 个 能 
混淆 。 事 实 上 ，USB 控制 器 是 有 能 力 向 CPU 发 出 中 断 请 求 的 ， 所 以 要 接 遂 它 的 中 断 请 求 线 
(arch/i386/kernel/pci-irg.c) » 


[pci module init( ) > pci register driver( ) > pci announce device( ) > uhci pci probe( ) 
> pci, enable device( ) > pcibios enable device( ) > pcibios enable irq( )l 


613 void pcibios enable irq(struct pci dev *dev) 


614 { 
615 u& pin; 
616 pci read config byte (dev, PCI TNTERRUPT PIN, &pin); 
617 if (pin && !pcibios lookup irq(dev, 1) && !dev-^irq) | 
618 char *msg; 
619 if (io apic assign pci irgs) 
620 msg = ^ Probably buggy MP table. "; 
621 else if (pci probe & PCI BTOS IRQ SCAN) 
622 msg = ””; 
623 else 
624 msg = ”Please try using pci=biosirq. ”; 
625 printk (KERN_WARNING 
"PCI: No IRQ known for interrupt pin %c of device %s.%s\n", 
626 'A + pin - 1, dev->slol name, msg); 
627 } 
628 } 
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USB 控制 器 本 号 带 有 微 处 理 器 ， 人 在 USB 总 线 上 发 送 /接收 的 信息 部 由 USB 控制 器 通过 DMA 直接 
从 内 存 读 /号 ， 主 机 的 CPU 只 此 提供 缓冲 区 指针 就 可 以 了 。 而 且 ，CPU 也 不 需要 逐次 地 为 USB 总 线 上 
的 操作 提供 缓冲 区 指针 ， 和 击 只 要 把 缓冲 区 指针 纪录 人 在 相应 的 交互 请 求 ， 或 日 交互 描述 块 中 就 可 以 了 。 
USB 控制 峰 自 会 及 着 交互 请 求 队列 逐个 地 完成 对 这 些 缓冲 区 的 操作 。 类 似 的 DMA 操作 称 为 “智能 化 
DMA”。 其 实 ，USB 总 线 控制 器 的 DMA 操作 甚至 比 一 般 的 智能 化 DMA 还 要 复杂 ， 因 为 CPU 为 之 准 
备 的 并 不 只 是 一 个 缓冲 区 队列 ， 而 是 许多 交互 请 求 队列 ， 称 为 一 个 “调度 ”。 

PCI 设备 (的 接口 ) 要 进行 DMA 操作 就 得 具有 竞争 成 为 “总 线 主 ” 的 能 轧 。 男 一 方面 ，PCI1 设备 的 
DMA 功能 还 要 服从 CPU 的 统一 管理 ， 在 PCI 配置 寄存 器 组 的 命令 寄存 器 中 有 一 个 控制 位 
PCLCOMMAND_MASTER， 隐 是 用 来 打 并 或 关闭 具体 PCI 设备 竞争 成 为 总 线 主 的 能 力 。 在 完成 PCI 
总 线 的 初始 化 时 ， 所 有 PCI 设备 的 DMA 功能 都 是 关闭 的 ， 所 以 这 里 要 通过 pci_set_master( ) 启 用 USB 
控制 器 竞争 成 为 总 线 主 的 能 力 (drivers/pci/pci.c)。 


[pci_module_init( ) > pci_register_driver( ) > pci announce, device( ) > uhci pci probe( ) 
» pci set master( )] 


508 void 

509 pci set master(siruct pci dev *dev) 

510 这 

511 ul6 cmd; 

512 

513 pci read config word(dev, PCI COMMAND, &cmd) ; 

514 if (! (cmd & PCI COMMAND MASTER)) { 

515 DBG( PCI: Enabling bus mastering for device %s\n”, dev-5slot name); 
516 cmd |= PCT COMMAND MASTER: 

517 pci write config word(dev, PCI COMMAND, cmd); 
518 ) 

519 pcibios set master (dev); 

520  ] 


再 回 到 uhei pei probe( ) 的 代码 中 , USB 控制 器 作为 PCI 设备 在 PCI 总 线 层次 上 的 初始 化 已 经 完成 
了 ， 下 面 就 是 USB 总 线 控制 器 本 身 的 初始 化 ， 即 USB 总 线 的 初始 化 了 。 这 是 由 setup_uhei( ) 完 成 的 ， 
其 代码 在 drivers/usb/uhci.c P: 





[pci, module, init( ) > pci register driver( ) > pci announce device( ) > uhci pci probe( ) > setup uhci( )] 


2321 /* 
2328 * Tf we' ve successfully found a UHCI, now is the time to increment the 
2329 * moduie usage count, and return success.. 
2330 */ 
2331 static int setup uhci (struct pci dev *dev, int irq, 
unsigned int io_addr, unsigned int io size) 
2332 { 
2333 int retval; 
2334 struct uhci *uhci; 
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2335 char buf[8], *bufp = buf; 

2336 

2337 üifndef | spare __ 

2338 sprintf (buf, "Wd", ira); 

2339 #else 

2340 bufp = __irq itoa(irg); 

2341 Hendif 

2342 printk (KERN_INFO __FILE__ ^. USB UHCI at 1/0 Ox%x, IRQ %s\n", 
2343 io addr, bufp) ; 

2344 

2345 uhci = alloc uhci(io addr, io size); 

2346 if (!uhci) 

2347 return -ENOMEM; 

2348 dev-»driver data = uhci; 

2340 

2350 request region(uhci-^io addr, io size, "usb-uhci^); 

2351 

2352 reset hc(uhci); 

2353 

2354 usb register bus(uhci-^bus); 

2355 start hc(uhci); 

2356 

2357 retval = -EBUSY; 
2358 if (request irq(irq, uhci interrupt, SA SHIRQ, "usb-uhci^, uhci) == 0) ( 
2359 uhci-^irq = irq; 

2360 

2361 pci write config word (dev, USBLEGSUP, USBLEGSUP DEFAULT); 
2362 

2363 if (!uhci start root hub(uhci)) 

2364 return 0; 

2365 } | 

2366 

2367 /* Couldn’ t allocate IRQ if we got here */ 

2368 

2369 reset he (uhci) ; 

2370 release region(uhci->io_addr, uhci->io_size); 

2371 release_uhci (uhci) ; 

2372 

2373 return retval; 

2374} 


参数 dev 指向 USB 总 线 控制 器 的 pci_dev 数据 结构 ,irq 为 该 PCI 设备 所 连接 的 中 断 请 求 输 入 线 写 ， 
jo_addr 则 为 其 VO 地 址 空间 的 起 始 地 址 ， 区 闻 的 大 小 为 io_size。 

每 个 USB 控制 器 控制 着 一 条 USB 总 线 ， 需 要 有 -个 数据 结构 作为 代表 。 对 于 遵循 UHC 界面 的 
控制 器 ， 那 就 是 uhci 结构 ， 定 义 于 drivers/usb/uhci.h: 


308 struct uhci { 
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309 /* Grabbed from PCI */ 


310 int irq; 

311 unsigned int io_addr: 

312 unsigned int io size; 

313 

314 struct list head uhci list; 

315 

316 struct usb bus *bus; 

317 

318 struct uhci td skeltd[UHCI NUM SKELTD]; /* Skeleton TD’ s */ 
319 struct uhci qh skelqh[UHCI NUM SKELQH]; /* Skeleton QH's */ 
320 

321 spinlock t framelist lock; 

322 struct uhci framelist *fl: /* Frame list */ 
323 int fsbr; /* Full speed bandwidth reclamation */ 
324 

325 spinlock_t qh_remove lock; 

326 struct list_head qh_remove_list: 

327 

328 spinlock t urb remove lock; 

329 struct list head urb remove list; 

330 

331 Struct s nested lock urblist lock; 

332 struct list head urb list; 

333 

334 struct virt root hub rh; /* private data of the virtual root hub */ 
335 小 


数据 结构 中 有 几 个 特别 重要 的 成 分 。 首 先是 指针 和， 指向 一 个 uhci, framelist 数据 结构 ， 这 就 是 具 
体 USB 总 线 的 “框架 表 ”， 这 种 数据 结构 也 定义 于 drivers/usb/uhci.h: 


100 struct uhci_framelist { 
101 __u32 frame[UHCI NUMFRAMES] ; 
102 | . attribute ((aligned(4096))); 


USB 总 线 的 框架 表 实 际 上 是 个 指针 数组 ， 每 个 指针 都 指向 一 个 等 时 交互 队列 。 常 数 
UHCI NUMFRAMES 在 同一 文件 中 定义 为 1024， 所 以 整个 数组 代表 着 1024 个 框架 。 数 组 的 起 始 地 址 
必须 与 4K 字 节 边界 对 齐 ， 这 样 其 起 始 地 址 的 低 12 位 就 全 都 是 0。USB 控制 器 内 部 有 个 “框架 表 基 地 
址 寄存 器 ”， 用 来 记录 这 个 林地 址 。 同 时 ，USB 控制 器 内 部 还 有 个 10 位 的 “框架 计数 器 ” 这 个 计数 器 
从 0 开始， 每 过 1 毫秒 (1/1024 秒 ) 就 加 1， 直 至 Oxatr HU 1023， 然 后 又 变 为 0， 如 此 周而复始 ， 在 框架 
计数 的 后 面 洪 上 两 位 0， 再 与 框架 表 的 基地 址 连 在 一 起 ， 就 成 了 指向 框架 衣 中 某 个 表 项 的 指针 。 框 架 志 
中 的 每 个 表 项 都 指向 一 个 ubci_td 结构 的 队列 , 每 个 uhci_td 结构 是 对 一 个 交互 的 描述 ， 我 们 称 之 为 “ 交 
互 描述 块 ”或 “交互 请 求 ” USB 控制 器 在 每 个 框架 中 首先 就 执行 这 个 队列 。 每 个 等 时 交互 队列 中 的 最 
后 一 个 数据 结构 指向 一 个 (实际 上 是 - - 截 ) 中 断交 互 队 列 。 中 断交 互 队列 与 框架 之 间 并 不 是 一 - .对 应 的 关 
系 ，ubci 结构 中 有 个 uhci_td 结构 数组 skeltd[ ]， 其 中 的 每 个 元 素 都 指向 一 截 中 断交 互 请 求 队列 ， 常 数 
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UHCL NUM. SKELTD 定义 为 10， 其 中 skeltd[0] 是 整个 队列 的 终点 ， 而 skeltd[9] 实 际 上 上 不用， 所 以 一 共 
有 8 截 这 样 的 中 断交 坪 请 求 队列 。 这 些 中 断交 互 请 求 队列 又 链接 在 一 起 ， 成 为 “个 总 的 中 源 交 互 请 求 
队列 。 但 是 ， 链 接 在 不 同 部 位 上 的 中 断交 互 请 求 受 到 执行 的 频率 是 不 样 的 。 当 将 一 个 代表 着 中 断交 
AY uhci td 结构 链 入 队列 时 ， 可 以 根据 所 要 求 的 执行 周期 选择 链 入 中 断交 互 请 求 队列 的 不 同 部 位 。 而 
skeltd[ ] 中 的 各 个 元 素 , 则 起 着 链 入 点 的 作用 , 所 以 这 个 数 纽 称 为 中 断 变 互 请 求 队列 的 “骨架 ”Cskeletom)。 
这 些 链 入 点 本 身 也 是 uhci td 结构 ， 不 过 是 空闲 的 uhci td 结构 ，USB 控制 器 在 执行 时 会 良 动 此 过 。 此 
外 ， 下 面 读 者 将 会 看 到 ， 虽 然 中 断交 互 请 求 队列 并 不 与 框架 一 一 对 应 ， -者 间 还 是 有 痢 其 种 静态 的 对 

等 时 交互 和 中 断交 互 都 是 周期 性 的 ， 在 每 个 框架 中 -者 的 流量 加 在 一 起 不 越过 90 多 。 这 样 ， 企 每 
个 框架 中 ，USB 控制 器 在 执行 完 这 两 种 交互 请 求 以 后 总 是 还 有 一 些 时 间 ( 至 少 10%)， 可 以 用 来 执行 控 
制 交 互 以 及 成 块 交 百 。 这 两 种 交互 都 不 是 周 期 性 的 ， 其 队列 与 框架 没有 静态 的 对 应 关系 ，USB fima 
对 这 些 队 列 的 执行 完全 是 动态 的 ， 有 时 间 就 执行 ， 没 有 时 间 就 不 执行 ， 时 间 多 就 多 执行 ， 时 间 少 就 少 
执行 。 在 uhci 结构 中 还 有 个 uhci_qh 结构 数组 skelqh[ ]， 数 组 中 的 每 个 元 素 都 是 一 个 队列 头 ， 用 来 维持 
一 个 “队列 的 队列 ”或 者 说 传输 请 求 的 队列 。 如 前 所 述 ， 每 个 传输 请 求 是 一 个 交互 请 求 的 队 齐 。 所 以 ， 
这 个 数组 是 控制 /成 块 传输 请 求 队列 的 骨架 ， 其 大 小 是 UHCI NUM_SKELQH， 在 drivers/usb/uhci.h 中 
定义 为 4。 从 逻辑 上 说 ， 只 要 有 两 个 链 入 点 就 够 了 ， 可 是 实际 上 USB 设备 有 全 速 和 低速 之 分 ， 还 有 一 
个 有 着 特殊 的 用 途 ， 所 以 共有 4 个 。 

因此 ， 除 还 有 其 他 ，- 些 成 分 以 外 ，uhci 数据 结构 实际 上 代表 着 主机 CPU 为 一 条 USB 总 线 排 好 的 
“日 程 表 ” 或 者 说 执行 程序 ， 这 就 称 为 一 个 “调度 ”(schedule)。 不 言 而 痊 ， 初 始 化 时 要 为 USB 控制 


数 的 代码 较 长 ， 我 们 分 段 阅读 。 


[pci module init( ) > pci register driver( ) > pci_announce_device( ) > uhci pci probe( ) > setup uhci( ) 
> alloc_uhci( )] 


2199  /* 

2130 * Allocate a frame list, and then setup the skeleton 

2191 * 

2132 * The hardware doesn't really know any difference 

2133 * in the queues, but the order does matter for the 

2134 * protocols higher up. The order is: 

2135 * 

2136 * ~ any isochronous events handled before any 

2137 * of the queues. We don't do that here, because 

2138 * we ll create the actua] TD entries on demand. 

2139 * -— The first queue is the "interrupt queue’. 

2140 * - The second queue is the "control queue”, split into low and high speed 
2141 * - The third queue is "bulk data". 

2142 */ 

2143 static struct uhci *alloc_uhci (unsigned int io addr, unsigned int io size) 
2144 { 

2145 int i, port; 
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2146 struct uhci *uhci; 

2147 struct usb_bus *bus; 

2148 

2149 uhci = kmalloc (sizeof (*uhci), GFP KERNEL); 
2150 if (!uhci) 

2151 return NULL; 

2152 

2153 memset(uhci, 0, sizeof (*uhci)); 

2154 

2155 Uhci->ird = -1; 

2156 uhci->io addr = io addr; 

2157 uhei->io size = io size; 

2158 

2159 spin lock init(&uhci-^qh remove lock); 

2160 INIT LIST HEAD (&uhci->gh remove list); 

2161 

2162 spin_lock_init (uhci—>urb_remove_lock) ; 

2163 INIT LIST HEAD(&uhci-^urb remove list); 

2164 

2165 nested init(&uhci-^urblist lock); 

2166 INTT LTST HEAD (&uhci-^urb list); 

2167 

2168 spin lock init(&uhci-^framelist lock); 

2169 

2170 /* We need exactly one page (per UHCI specs), how convenient */ 
2171 /* We assume that one page is atleast 4k (1024 frames * 4 bytes) */ 
2172 uhci-^fl = (void *) get free page (GFP KERNEL); 
2173 if (luhcei->f1) 

2174 goto au free uhci; 

2175 

2176 bus = usb alloc bus(&uhci device operations): 
2177 if (!bus) 

2178 goto au_free_fl; 

2179 

2180 uhci->bus = bus; 

2181 bus-»hcpriv = uhci; 

2182 


首先 为 uhci 数据 结构 分 配 空间 ， 结 构 中 qh remove list. urb. remove, list, urb, list 等 队列 的 作用 以 
后 会 看 到 ， 这 里 是 对 这 些 队列 头 的 初始 化 。 然 后 就 是 为 框架 表 分 配 空间 ，1024 个 指针 的 大 小 为 4KB， 
正好 是 一 个 页 面 。 前 面 讲 过 ，uhci 数据 结构 代表 着 一 个 USB 控制 器 ， 从 而 也 代表 着 一 条 USB i£; 
然而 ，uhei 数据 结构 中 的 成 分 实际 上 还 不 足以 全 面 地 反映 一 条 USB 总 线 的 状态 ， 因 此 内 核 中 又 定义 了 
一 种 usb bus 数据 结构 。 所 以 ， 也 要 为 usb bus 结构 分 配 空间 ， 并 使 uhci 和 usb. bus 鸯 个 数据 结构 通过 
指针 互相 指向 对 方 ， 连 结 成 “个 整体 。 这 种 数据 结构 定义 于 include/linux/usb.h: 





561 struct usb bus | 
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562 
563 
564 
565 
566 
567 
568 
569 
570 
571 
572 
573 
574 
575 
576 
577 
578 
579 
580 


550 
551 
552 
953 
554 
599 
556 


1615 
1616 
1617 
1618 
1619 
1620 
1621 


E 
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int busnum; /* 
struct usb devmap devmap; /* 
struct usb_operations *op; /* 
struct usb device *root hub; /* 
struct list_head bus_list; 
void *hcpriv; /% 
int bandwidth allocated; /* 
/* 
/* 
/* 


/* 
int bandwidth int reqs; /* 
int bandwidth isoc reqs; /* 


/* 


struct list head inodes; 





Bus number (in order of reg) */ 


Device map */ 
Operations (specific to the HC) */ 
Root hub */ 


Host Controller private data */ 


on this Host Controller; */ 

applies to Int. and Isoc. pipes; */ 
measured in microseconds/frame; */ 
range is 0..900, where 900 = */ 
90% of a i-millisecond frame */ 
number of Interrupt requesters */ 
number of Isoc. requesters */ 


usbdevfs inode list */ 


MBA, AU c EIUS AA, TEA RM CS ES Oe? 我 们 在 前 面 讲 过 ，USB 总 线 控 
制 器 有 UHCI 和 OHCI 两 种 界面 ，uhci 数据 结构 正 是 对 UHCI 界面 的 抽象 。 而 usb bus 结构 ， 则 是 对 这 
两 种 界面 的 公共 部 分 ， 即 “USB 总 线 ” 层 次 上 的 抽象 。 正 因为 这 样 ，usb_bus 结构 中 的 指针 hepriv 是 
个 无 类 型 (void) 指 针 ， 它 可 以 指向 一 个 uhei 数据 结构 ， 也 可 以 指向 一 个 ohci 数据 结构 。 

函数 usb_alloc_bus( ) 的 作用 是 为 usb_bus 结构 分 配 空间 并 进行 初始 化 。 由 于 简单 ,我 们 就 不 列 出 其 
代码 了 。 这 个 数据 结构 中 的 指针 op 应 该 指向 一 个 usb operations 数据 结构 ， 这 里 将 其 设置 成 指 问 
uhci_device_operations， 分 别 定义 于 include/linux/usb.h 和 drivers/usb/uhci.c: 


struct usb operations | 
int (*allocate) (struct usb device *); 

int Ckdeallocate) (struct usb device *); 

int (&get frame number) (struct usb device *usb, dev); 
int Cksubmit urb) (struct urb* purb); 

int Ckunlink urb) (struct urb* purb); 


js 


struct usb operations uhci device operations = { 


By 


uhci alloc dev, 

uhci free dev, 

uhci get current frame number, 
uhci submit urb, 

uhci unlink urb 


显然 ， 这 个 数据 结构 为 具体 USB 控制 颇 界 面 的 操作 提供 了 函数 指针 。 
我 们 继续 看 alloc_uhci( ) 的 代码 (drivers/usb/uhei.c)。 
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[pci module init( ) > pci_register_driver( ) > pci_announce_device( ) > uhci pci probe( ) > setup uhci( ) 
> alloc_uhci( )] 





2183 /* Initialize the root hub */ 
2184 
2185 /* UHCI specs says devices must have 2 ports, but goes on to say */ 
2186 /* they may have more but give no way to determine how many they */ 
2187 /* have. However, according to the UHCI spec, Bit 7 is always set */ 
2188 /* to l. So we try to use this to our advantage */ 
2189 for (port = 0; port < (io size - 0x10) / 2: port++) { 
2190 unsigned int portstatus; 
2191 
2192 portstatus = inw(io addr + 0x10 + (port * 2)); 
2193 if (!(portstatus & Ox0080)) 
2194 break; 
2195 } 
2196 if (debug) 
2197 info('detected %d ports”, port); 
2198 
2199 /* This is experimental so anything less than 2 or greater than 8 is */ 
2200 /* something weird and we'll ignore it */ 
2201 if (port < 2 || port > 8) | 
2202 info( port count misdetected? forcing to 2 ports”); 
2203 port = 2: 
2204 } 
2205 
2206 uhci-?rh. numports = port; 
2207 
2208 /* 
2209 * 9 Interrupt queues; link int2 to intl, int4 to int2, etc 
2210 * then link intl to control and control to bulk 
2211 */ 
2212 for (i= 1; i < 9; i++) | 
2213 struct uhci td *td - &uhci-^skeltd[i]; 
2214 
2215 uhci fill td(td, 0, 
(UHCI NULL DATA SIZE << 21) (Ox7f << 8) | USB PID IN, 0); 
2216 td->link - virt to bus(&uhci-?skeltd[i - 1]); 
2217 } 
2218 
2219 
2220 uhci fill td(&uhci-^skel intl td, 0, z 
(UHCI NULL DATA SIZE << 21) | (Ox7f << 8) | USB PID IN, 0); 
2221 uhci->skel intl td.link = 
virt Lo bus(&uhci-^skel 1s control qh) | UHCI PTR QH; 
2222 
2220 uhci-?skel Is control gh.link = 


virt to bus(&uhci P5skel hs control qh) | UHCI PTR QH; 
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2224 
2225 
2226 


2221 
2228 
2229 


2230 
2231 
2232 
2233 


2234 
2235 
2236 
2237 


uhci-^skel 1s control qh. element - UHCI PTR TERM; 


virt to bus(&uhci-^skel bulk gh) | UHCI PTR QH; 
uhci->skel hs control qh. element — UHCI PTR TERM; 


uhci->skel bulk qh. link = 
virt_to_bus (&uhci->skel term qh) : UHCI PTR QH; 
uhci->skel bulk qh. element = UHCI PTR TERM; 


/* This dummy TD is to work around a bug in Intel PIIX controllers */ 
uhei_fill_td(@uhci~>skel term td, 0, 

(UHCI NULL DATA SIZE << 21) | (Ox7f << 8) , USB PID IN, 0); 
uhci-2skel term td. link = UHCI PTR TERM; 


uhci-^skel term gh. link = UHCI PTR TERM; 
uhci-^skel term gh. element = virt to bus(&uhci-5skel term td); 


USB 总 线 的 根 集中 器 总 是 与 USB Fils SE AE E. AF UHCI FAIA S ellas, + UO 地 址 
区 间 的 前 16 SDK RRA, SRA TAB PIS. RIE "ALI" (port) ra 
用 两 个 地 址 。 端 所 的 数量 则 取 次 十 具体 的 芯片 ， 至 少 2 个 , 最 多 8 个 。 每 个 端口 的 状态 寄存 器 中 的 bit7 
总 是 1， 所 以 代码 中 通过 一 个 短 环 试 读 ， 以 确定 根 集中 突 中 端口 的 数量 。 


前 面 讲 过 ，uhci 结构 小 的 skedi ] 用 于 8 截 中 断交 互 队 列 ， 起 个 uhci_td 数据 结构 的 数组 。 结 构 名 


中 的 “td” 是 “交互 描述 结构 ”(transaction descriptor) 的 意思 。 这 种 数据 结构 定义 丁 drivers/usb/uhci.h: 


175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 


struct uhei_td { 


} 


. attribute 


/* Hardware fields */ 
u32 link; 

u32 status; 

.  u3à info; 

|. u32 buffer; 


/* Software fields */ 
unsigned int *frameptr; /* Frame list pointer */ 
struct uhci td *prevtd, *nexttd; /* Previous and next TD in queue */ 


struct usb device *dev; 
struct urb *urb; /* URB this TD belongs to */ 


struct list head list; 
((aligned(16))) ; 


每 个 uhci td 数据 结构 代表 着 一个 交互 请 求 ， 就 好 像 是 对 USB 控制 器 的 一 条 指令 。 结 构 中 前 4 个 
32 位 长 字 的 作用 是 由 USB 控制 器 的 信件 结构 所 确定 了 的 , 因 市 不 能 改变 ; 不 过 鳄 件 只 认 开头 这 4 个 字 
段 ， 其 余 的 字段 则 由 软件 定义 和 使 用 。 数 据 结构 的 起 点 必须 与 16 宁 节 的 边界 对 齐 ， 这 也 是 USB 总 线 
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控制 器 的 硬件 结构 所 要 求 的 。 这 4 个 32 位 长 字 实 际 上 相当 于 一 组 寄存 器 。 在 本 书 中 ， 我 们 把 由 硬件 使 
用 的 这 一 部 分 称 为 “交互 描述 块 ” 以 区 别 于 整个 交互 描述 结构 。 结 构 头 部 的 4 个 字段 中 ，link 是 指向 
下 一 个 uhci td 数据 结构 的 链接 指针 ，buffer 则 指向 用 于 发 送 或 接收 的 缓冲 区 ， 二 者 均 为 物理 地 址 。 此 
Sb, info 就 好 像 是 命令 寄存 器 ， 相 当 于 指令 中 的 操作 码 。 内 核 在 drivers/usb/uhci.c 中 提供 了 一 个 inline 


函数 uhci_fill_td{ )， 用 于 设置 uhci_td 数据 结构 头 部 除 link 外 的 三 个 字段 ， 


165 static void inline uhci fill td(struct uhci td *td, ^ u32 status, 
166 __u32 info, | u32 buffer) 

167 d 

168 td->status = status; 

169 td->info = info; 

170 td->buffer = buffer; 

171. . 3} 


上 面 2212 行 的 for 循环 是 对 中 斯 交互 队列 的 初始 化 。 除 第 一 个 uhci td 数据 结构 skeltdl0] 以 外 , 其 
余 的 8 个 uhci_td 结构 都 设置 成 无 数据 的 输入 父 互 ， 并 且 都 指向 其 前 面 的 uhci td 数据 结构 ， 而 status 
和 buffer 两 个 字段 则 都 初始 化 成 0， 表示 “ 空 操 作 ” 

至 于 skeltd[0] ， 则 (2220 一 2221 行 ) 初 始 化 成 指向 低速 USB 设备 的 控制 交 生 队列 ， 即 
uhci-»skel ls control qh。 这 里 的 skel intl td. skel ls control qh 都 是 drivers/usb/uhci.h 中 定义 的 宏 定 
X: 


235 #define UHCI NUM SKELTD 10 

236 #define skel intl td skeltd[0] 
237 tidefine skel int2 td skeltd[1] 
238 Hdefine skel int4 td skeltd[2] 
239 #define skel int8 td skeltd[3] 
240 #define skel intl6 td skeltd|4] 
241 #define skel int32 td skeltdí5] 
242 define skel int64 td skel td[6] 
243 #define skel int128 td skeltd{7] 
244 Hdefine skel_int256_td skeltd{8] 
245 #define skel term td skeltd[9]  /* To work around PIIX UHCI bug */ 
246 

247 #define UHCI NUM SKELQH 4 

248 #define skel ls control gh skelgh[0] 
249 Hdefine skel hs control qh skelgh[1] 
250 #define skel bulk gh skelgh[2] 
25] #define skel term qh skelqh[3] 


这 些 宏 定义 实际 上 说 明了 各 个 队列 的 人 作用。 例如，skel_ls_control qh #48 skelqh[0] 是 低速 设备 的 
控制 传输 队列 头 。 那 么 ，skel_intl_td 义 表示 什么 呢 ? 下 面 读者 就 会 看 到 ， 它 表示 skeltd[0] 是 在 每 一 个 
时 间 框 架 中 都 会 执行 一 遍 的 中 断交 互 请 求 链 入 点 。 相 应 地 ，skel_int2_td 则 表示 skeltdf1] 是 每 两 个 框架 
才 会 执行 一 让 的 中 断交 如 请 求 链 入 点 ， 等 等 。 

与 skeltd[ ] 不 同 , skelgh[ ] 中 的 元 素 是 uhci_qh 数据 结构 , 结构 名 中 的 “qh” 表示 这 是 个 队列 头 (queue 
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head)。 这 种 数据 结构 定义 于 drivers/usb/uhci.h: 





106 struct uhci qh | 


107 /* Hardware fields */ 

108 __u32 link; /* Next queue */ 

109 __u32 element; /* Queue element pointer */ 
110 

111 /* Software fields */ 

112 /* Can' t use list head since we want a specific order */ 
113 struct usb_device *dev; /* The owning device */ 
114 

115 struct uhci qh *prevgh, *nextqh; 

116 

117 struct list head remove list; 


118 } attribute ((aligned(16))); 


这 个 数据 结构 也 与 USB 控制 器 的 硬件 有 关 ， 其 头 部 的 link 和 element 两 个 字段 的 作用 是 由 硬件 确 
定 的 ， 因 而 不 能 改变 ， 其 余 的 字段 则 只 由 软件 使 用 。 同 样 ， 我 们 有 时 把 由 硬件 使 用 的 这 部 分 称 为 “ 队 
列 描述 块 ”， 以 区 别 于 整个 数据 结构 。 字 段 link 实际 上 是 指向 下 一 个 队列 (描述 块 ) 的 指针 ，elememt 也 
是 指针 ， 通 常 指向 本 队列 中 的 第 一 个 交互 描述 块 ， 但 是 在 特殊 情况 下 也 可 以 指向 另 一 个 队 刻 描 述 块 。 
二 者 均 采 用 物理 地 址 。 由 于 uhci td 数据 结构 和 uhci qh 数据 结构 都 是 与 16 字 节 边界 对 齐 的 , 其 地 址 的 
低 4 位 … 定 是 0， 所 以 link 和 element 两 个 字段 的 低 4 位 可 以 用 作 标 志 位 。 其 中 最 低位 为 “结束 ”位 
UHCI_PTR_TERM， 当 队列 为 空 时 ， 将 队列 头 的 指针 elememt 设置 成 1( 而 不 是 0)， 就 是 因为 其 “结束 ” 
位 为 1。 此 外 ， 指 针 中 还 有 -个 标志 位 UHCI_PTR_QH， 用 来 告诉 USB 控制 器 所 指向 的 是 队列 描述 块 
还 是 交互 描述 块 .从 代码 中 可 以 看 出 ,队列 头 skel_ls_control qh 通过 其 link 字 段 指向 skel_hs_control_qh, 
而 skel hs control qh 则 又 指向 skel_bulk_qh。 所 有 这 三 个 队列 开始 时 都 是 空 的 。 除 这 些 以 外 ，skeltd[ ] 
中 还 有 个 skeltd[9]， 即 skel_term_t4， 代 码 中 的 注释 说 这 是 因为 USB 总 线 控制 器 所 在 的 Intel PIX 7 
内 部 有 个 错误 ， 为 了 绕 过 这 个 错误 而 设 的 。 还 有 ， 在 skelqh[ ] 中 还 有 个 skelqh[3]， 即 skel_term_qh， 这 
是 为 回收 框架 中 尚未 用 完 的 时 间 而 设置 的 ， 读 者 以 后 会 看 到 其 作用 。 

这 样 ， 对 中 断 、 控 制 和 成 块 等 三 种 交互 请 求 队列 的 初始 化 就 完成 了 。 下 面 是 对 框架 ， 即 1024 个 等 
时 交互 请 求 队列 的 初始 化 。 我 们 继续 往 下 看 (drivers/usb/uhcei.c)。 





[pci_module_init( ) > pci register driver( ) > pci_announce_device( ) > uhci pci probe( ) » setup uhci( ) 
> alloc_uhci( )] 


2238 

2239 /* 

2240 * Fill the frame list: make all entries point to 
2241 * the proper interrupt queue. 

2242 * 

2243 * This is probably silly, but it's a simple way to 
2244 * scatter the interrupt queues in a way that gives 
2245 * us a reasonable dynamic range for irq latencies. 
2246 */ 
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2247 for (i = 0: i < 1024; i++) { 

2248 struct uhci td *irg = &uhci->skel_intl_td; 
2249 

2250 if G&1) { 

2251 irqt+; 

2252 if (i & 2) ( 

2253 irqtt; 

2254 if (& 4) { 

2255 irqtt; 

2256 if (i & 8) i 

22901 irq*t*; 

2258 if (i € 16) { 

2259 irqt+; 

2260 LE (i & 32) 1 
2261 irqtt: 

2262 if (i & 64) 
2263 irq**; 
2264 ] 

2265 } 

2266 } 

2267 } 

2268 } 

2269 } 

2270 

2271 /* Only place we don't use the frame list routines */ 
2212 uhei-»fl-^frame[i] = virt to bus(irg); 
2213 ] 

2274 

2275 return uhci; 

2276 

2277 /* 

2278 * error exits: 

2279 */ 

2280 au_free fl: 

2281 free page((unsigned long) uhci->fl) ， 
2282 au_free_uhci: 

2283 kfree (uhci) : 

2284 

2285 return NULL; 

2286 ] 


框架 表 的 1024 个 表 项 代表 着 1024 个 1 EWER, PEPE ABE uhci td 结构 指针 ， 指 向 一 个 
等 时 交互 请 求 队列 ， 而 队列 中 的 最 后 一 个 uhci td 结构 则 应 该 指向 一 个 中 断交 互 请 求 的 uhci td 结构 。 
然而 ， -开始 时 还 没有 等 时 父 互 请 求 ， 每 个 框架 的 竺 时 交互 请 求 队列 帮 是 空 的 ， 所 以 此 时 框架 表 的 每 
个 表 项 都 应 该 直接 指向 中 断交 占 请 求 队列 中 的 某 一 个 链 入 点 、 也 就 是 skeltd[ ] 中 的 某 个 元 素 。 可 是 ， 
skeltd[ ] 中 共有 10 个 uhci td 数据 结构 ， 应 该 指向 嘟 一 -个 昵 ? 我 们 看 代码 ， 这 里 的 for 循 坏 是 很 有 意思 
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的 。 对 于 框架 表 中 的 每 一 个 表 项 ， 先 都 假定 指向 skeltd[0]， 即 skel intl td (2248 行 )， 让 中 断交 互 请 求 
skeltd[0] 在 每 个 框架 中 都 会 得 到 … 次 执行 。 然 后 ， 如 果 表 项 的 框架 号 ( 即 数组 下 标 ) 为 奇数 (2250 行 )， 则 
把 指针 调整 为 指向 skeltd[1]。 这 样 ，skeltd[1] 就 会 每 陋 一 个 框架 得 到 次 执行 。 同 时 ， 前 面 已 经 看 全， 
skeltd[f1] 的 指针 link 指向 skeltdl0]， 所 以 skeltd[0] 还 是 在 每 个 框架 中 都 会 得 到 执行 ， 所 以 ，skeltd[O] 是 
skel intl. td, 而 skeltd[1] 则 是 skel_int2_td。 问 理 , 如 果 框 架 号 的 最 后 册 位 为 3, 则 指 加 skeltd[2], 使 skeltdf2] 
每 隔 3 个 框架 就 会 得 到 一 次 执行 ， 所 以 是 skel_intd_td。 巾 于 skeltdf2] 的 指针 link 指向 skeltd[1]， 所 以 
skeltdf1] 和 skeltd10] 的 执行 保持 不 变 ， 余 类 推 。 最 后 ， 如 果 框 架 号 的 最 后 7 位 为 127， 则 指 加 skeltd[7]， 
使 其 每 隔 127 个 框架 得 到 次 执行 ， 所 以 是 skel_int128_td。 这 样 ，skeltd[ ] 中 的 各 个 uhei_td 5993.27 
别 会 在 每 1 毫秒 、2 毫秒 、4 毫秒 、… 、128 毫秒 中 得 到 一 次 执行 。 人 不过 ， 我 们 在 前 血 看 到 ，skeltd[ ] 
中 各 个 uhci_td 结构 的 “操作 码 ” 均 为 0， 邮 “ 空 操作 ”， 因 而 实际 上 不 会 真 的 启动 “次 中 断 父 互 ， 而 只 
是 用 来 起 到 类 似 于 队列 头 的 作用 。 假 定 有 个 USB 设备 ， 需 要 每 16 毫秒 对 其 启动 一 次 中 断交 互 ， 得 询 
其 状态 变化 ， 那 就 可 以 为 之 建立 一 个 中 断交 于 请 求 ， 并 将 其 插入 skel_int16_td 与 skel int8_td Ż Ù], BI 
skeltd[4] 和 skeltd[3] 之 间 。 理 解 了 这 上段 代码 ， 就 明白 为 什么 说 skedi ] 是 中 断交 互 请 求 队列 的 “骨架 ” 

了 。 赎 者 也 许 会 问 ， 为 什么 要 用 uhei_td 结构 来 起 “类 似 于 队列 头 ” 的 作用 ， 而 不 是 直接 就 用 队列 头 ， 

HI skelqh 数据 结构 昵 ? 这 一 点 后 面 会 专门 讲 到 。 

至 此 ,代表 着 USB 总 线 的 数据 结构 就 初始 化 完毕 了 ,我 们 回 到 前 面 setup_uhci( ) 的 代码 中 (2346 17). 
接着， 通过 reset_he( ) 往 USB 总 线 控制 器 的 命令 寄存 器 中 写 入 一 个 “全 局 总 清 ”命令 ， 以 保证 USB 总 
线 进 入 初始 状态 。 这 里 的 “hec” 表 示 “ 主 控制 器 ”(host controllen 。 这 个 函数 很 简单 ， 其 代 公 在 
drivers/usb/uhci.c P: 





[pci module, init( ) > pci. register. driver( ) > pci announce device( ) > uhci pci probe( ) > setup. uhci( ) 
» reset hc( )] 


2087 static void reset hc(struct uhci *uhci) 
2088 { 

2089 unsigned int io addr = uhci->io_addr; 
2090 

2091 /* Global reset for 50ms */ 

2092 outw(USBCMD GRESET, io addr + USBCMD) ; 
2093 wait ms (50) ; 

2094 outw(0, io addr + USBCMD) ; 

2095 wait ms(10); 

2006 — ] 


创建 了 代表 着 USB EDU usb bus 数据 结构 以 后 ， 还 些 通 过 usb register bus( ) 向 系统 登记 ， 其 代 
码 在 drivers/usb/usb.c P: 


[pci module init( ) > pci register driver( ) > pci. announce, device( ) > uhci, pci. probe( ) > setup. uhci( ) 
> usb register bus( )] 


394 /六 六 
395 * usb register_bus - registers the USB host controller with the usb core 
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396 
397 
398 
399 
400 
401 
402 
403 
404 
405 
406 
407 
408 
409 
410 
411 
412 
413 
414 
415 
416 


Linux 内 核 源 代码 情景 分 析 ( 下 册 》 


* @bus: pointer to the bus to register 

x 

*/ 

void usb_register_bus (struct usb bus *bus) 


{ 


int busnum; 


busnum = find next zero bit(busmap.busmap, USB MAXBUS, 1); 
if (busnum € USB MAXBUS) { 

set bit(busnum, busmap. busmap) ; 

bus->busnum = busnum; 
} else 

warn ("too many buses”); 


/* Add it to the list of buses */ 
list add(&bus-^bus list, &usb bus list); 


usbdevfs add bus (bus) ; 


info(^new USB bus registered, assigned bus number %d”, bus—>busnum) : 


} 


内 核 中 有 个 usb_busmap 数据 结构 busmap， 里 面具 有 一 个 成 分 ， 也 叫 busmap， 是 用 于 USB 总 线 的 
位 图 。 此 外 ， 还 有 个 队列 usb_bus_list。 所 谓 登记 就 是 从 位 图 中 分 配 -个 标志 位 以 及 相应 的 总 线 殷 ， 并 
将 代表 着 USB 总 线 的 usb_bus 数据 结构 链 入 队列 。 

前 面 在 reset_hc( ) 中 对 USB 总 线 进行 了 全 局 总 清 , 接 着 还 要 通过 start hO - 步 设置 USB 控制 器 ， 
这 个 函数 的 代码 在 drivers/usb/uhci.c P: 


[pci module. init( ) > pci register driver( ) » pci announce, device( ) » uhci pci probe( ) » setup. uhci( ) 
> usb register bus( )] 


2098 
2099 
2100 
2101 
2102 
2103 
2104 
2105 
2106 
2107 
2108 
2109 
2110 
2111 
2112 


static void start hc(struct uhci *uhci) 

{ 
unsigned int io addr = uhci->io addr; 
int timeout - 1000; 


/* 

* Reset the HC - this will force us to get a 

* new notification of any already connected 

* ports due to the virtual disconnect that it 

* implies. 

*/ 

outw(USBCMD HCRESET, io addr + USBCMD) ; 
while (inw(io addr + USBCMD) & USBCMD HCRESET) { 

if (!l--timeout) | 
printk(KERN ERR "uhci: USBCMD HCRESET timed out! Wn^); 
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2113 break; 

2114 } 

2115 } 

2116 

2117. /* Turn on all interrupts */ 

2118 outw(USBINTR TIMEOUT | USBINTR RESUME ! USBINTR IOC | USBINTR SP, 
2119 io addr + USBINTR) ; 

2120 

2121 /* Start at frame 0 */ 

2122 outw(0, io addr + USBFRNUM) ; 

2123 outl (virt_to_bus(uhci->fl), io addr + USBFLBASEADD) ; 

2124 

2125 /* Run and mark it configured with a 64-byte max packet */ 
2126 outw(USBCMD RS | USBCMD CF | USBCMD MAXP, io addr + USBCMD) ; 
2127 ) 


这 里 一 方面 设置 USB RARE aT ES. MRE FI 4 种 情况 下 向 主机 CPU 发 出 中 
rig: 
(1) USBINTR TIMEOUT. WRAS) 次 交互 以 后 月 标 设备 没有 回应 ， 从 而 造成 超时 。 
(2) USBINTR_RESUME。 为 节约 能 源 ， 如 果 一 个 USB 设备 (包括 集中 器 ) 在 一 段 时 间 内 没有 发 生 
任何 交 吾 ， 就 进入 类 似 于 “冬眠 ”的 挂 起 (Suspend) 模 式 ， 有 设备 从 挂 起 模式 癌 到 正当 运行 模 
式 时 ， 可 以 引起 OBI. 
(3) USBINTR_IOC。 完成 了 一 次 交 鼎 (Interrupt-On-Completion)。 如 果菜 个 交 瑟 请 求 表 明 要 在 完成 
以 后 引起 中 断 ， 则 USB 控制 器 会 在 这 个 交互 所 在 的 框架 结束 之 时 发 出 中 断 请 求 。 
(4) USBINTR_SP， 从 目标 设备 接收 到 的 信和 包 短 二 预期 ， 称 为 “短信 和 包 ”(short-packet)。 
另 一 方面 ， 还 将 控制 器 的 “框架 号 寄存 器 ” 设 成 0， 使 控制 器 从 0 号 框架 开始 ， 并 将 框架 表 的 基地 
址 设置 入 “框架 基地 址 寄存 器 ”。 最 后 ， 将 “命令 寄存 器 ”中 的 “启动 /停止 ”位 USBCMD_RS 设 成 1， 
USB 控制 器 就 开始 运行 了 。 当 然 ， 此 时 的 USB 总 线 在 逻辑 上 还 是 空 的 ， 因 而 实际 上 还 不 会 有 交互 ， 也 
不 会 有 中 断 请 求 。 此 外 ， 虽 然 总 线 控制 器 已 开始 扫描 框架 表 ， 根 集中 器 却 尚 林 局 用 。 
USB 控制 器 的 中 断 服务 程序 臣 uhci_interrupt( )， 向 系统 的 中 断 机 制 登记 了 中 断 服务 程序 (2358 17) 
以 后 (以 及 设置 USB 控制 器 的 PCI 配置 寄存 器 组 中 的 “个 寄存 器 USBLEGSUP 以 后 )， 便 通过 
uhci_start_root_hub( ) 启 动 根 集中 器 的 运行 (drivers/usbyuhci.c)。 


[pci_module_init( ) > pci_register_driver( ) > pci announce device( ) > uhci pci probe( ) > setup uhci( ) 
> uhci. start root hub( )] 


2307 int uhci start root hub (struct uhci *uhci) 


2308 { 

2309 struct usb device *dev; 

2310 

2311 dev = usb alloc dev(NULL, uhci—>bus) ; 
2312 if (!dev) 

2313 return -1; 

2314 
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2315 
2316 
2317 
2318 
2319 
2320 
2321 
2322 
2323 
2324 
2325 


584 
585 
586 
087 
088 
589 
590 
591 


592 
593 
594 
595 
596 
597 
598 
599 
600 
601 
602 
603 
604 
605 
606 
607 
608 
609 
610 
611 
612 
613 
614 


Linux AYERS AMET CPAP 


uhei->bus—>root hub = dev; 
usb connect (dev) ; 


if (usb new device(dev) != 0) { 
usb free dev (dev); 


return -1: 


return 0; 


} 


连接 在 USB 总 线 上 的 每 个 设备 、 包 括 根 集中 器 、 都 需要 有 个 usb_device 数据 结构 作为 代表 ， 这 是 
对 USB 设备 的 抽象 ， 定 义 于 includeinuxvusb.h 中 : 


struct usb device [| 


int devnum; /* Device number on USB bus */ 
int slow; /* Slow device? */ 
atomic t refcnt; /* Reference count */ 


unsigned int toggle[2]; /* one bit for each endpoint ([0] = IN, {1] = OUT) */ 
unsigned int halted[2]; 
/* endpoint halts; one bit per endpoint # & direction; */ 
/* [0] = IN, [1] = OUT */ 
int epmaxpacketin(16]; /* INput endpoint specific maximums */ 
int epmaxpacketout [16] ; /* OLTput endpoint specific maximums */ 


struct usb device *parent; 
struct usb bus *bus; /* Bus we re part of */ 


struct usb device descriptor descriptor;/* Descriptor */ 
struct usb config descriptor *config; /x All of the configs */ 
struct usb config descriptor *actconfig;/* the active configuration */ 


char **rawdescriptors: /* Raw descriptors for each config */ 
int have langid; /* whether string langid is valid yet */ 
int string langid; /* language ID for strings */ 

void *hcpriv; /* Host Controller private data */ 


/* usbdevfs inode list */ 
struct list head inodes; 
struct list head filelist; 


/¥ 
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615 * Child devices | these can be either new devices 

616 * (if this is a hub device), or different instances 

617 * of this same device. 

618 * 

619 * Each instance needs its own set of data structures. 
620 */ 

621 

622 int maxchild; /* Number of ports if hub */ 
623 struct usb device *children[USB MAXCHILDREN] ; 

624 } 


USB 总 线 上 的 每 个 设备 都 有 个 动态 分 配 的 设备 号 , 由 于 在 一 条 USB 总 线 上 的 设备 不 能 超过 127 个 ， 
所 以 设备 号 的 范围 为 1—127. 0 表示 尚 本 分 配 。 如 果 具 体 的 设备 是 个 集中 器 ， 则 通过 个 指针 数组 
childrenf ] 指 向 连接 在 该 集中 器 上 的 设备 (usb_device 结构 )。 而 每 个 设备 (除根 集中 器 之 外 )， 旭 通过 指针 
parent 指向 其 所 连接 的 集中 器 (usb_device 结构 )， 问 时 又 通过 指针 bus 指向 其 所 在 USB ARRI usb. bus 
数据 结构 。 这 样 ， 最 终 所 有 的 usb_device 结构 就 会 连接 成 :个 树 状 的 结构 ， 反 映 出 一 条 USB 总 线 的 拓 
扑 图 形 。 此 外 ，usb_device 结构 中 有 个 重要 的 成 分 descriptor， 是 个 usb_device descriptor 数据 结构 ， 定 
XF include/linux/usb.h "P: 


218 /* Device descriptor */ 
219 struct usb_device_descriptor { 


220 u8 bLength: 

22]  u8 bDescriptorType; 
222 . ul6 bedUSB: 

223 __u8 bDeviceClass; 
224 __u8 bDeviceSubClass; 
225 |. u8 bDeviceProtocol; 
226 = u$ bMaxPacketSizeO0; 
227 __ul8 idVendor; 

228 ul6 idProduct; 

229 —_ul6 bedDevice; 

230  .u8 iManufacturer; 
231 __u8 iProduct; 

232 __u8 iSerialNumber; 
233 __u8 bNumConfigurations; 


234  ] attribute _ ((packed)) ; 


这 个 数据 结构 的 内 容 是 由 USB 设备 的 硬件 提供 的 ， 其 内 容 固化 在 设备 的 硬件 中 ， 可 以 通过 次 控 
制 交互 从 设备 读 入 。 显 然 ， 其 内 容 与 PCI iU S SEHE BARI. TAN, USB 控制 璐 在 
PCI 总 线 上 ， 是 PCI 设备 ， 而 USB 设备 则 直接 或 间接 地 (通过 集中 器 ) 连 接 在 USB 控制 器 上 ， 其 本 身 并 
非 PCI 设备 。 至 于 usb device 结构 小 的 其 他 成 分 ， 则 读 虱 随 着 代码 的 阅读 自 会 明白 。 

像 USB 总 线 上 的 其 他 集中 器 一 样 , 根 集中 器 木 身 也 是 个 USB 设备 。 所 以 要 为 其 分 配 一 个 usb_device 
结构 ， 并 让 相应 usb. bus 结构 中 的 指针 root. hub 指向 这 个 数据 结构 。 

然后 ， 还 要 通过 usb_connect( ) 为 这 个 设备 间 动 态 地 分 屿 一 个 USB 总 线 设备 写 (drivers/usb/usb.c)。 


: dd]. 
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[pci module init( ) » pci register. driver( ) » pci announce device( ) > uhci pci probe( ) > setup uhci( ) 
> uhci start root hub( ) > usb. connect( )] 


1667 /* 

1668 * Connect a new USB device. This basically just initializes 

1669 * the USB device information and sets up the topology - it's 

1670 * up to the low-level driver to reset the port and actually 

1671 * do the setup (the upper levels don't know how to do that). 

1672 */ 

1673 void usb connect (struct usb device *dev) 

1674 { 

1675 int devnum; 

1676 // FIXME needs locking for SMP!! 

1677 /* why? this is called only from the hub thread, 

1678 * which hopefully doesn't run on multiple CPU’ s simultaneously 8-) 
1679 */ 

1680 dev-»descriptor.bMaxPacketSize0 = 8; /* Start off at 8 bytes */ 
1681 #ifndef DEVNUM ROUND ROBIN 

1682 devnum = find next zero bit (dev->bus—>devmap. devicemap, 128, 1); 
1683 Helse — /* round robin alloc of devnums */ 

1684 /* Try to allocate the next devnum beginning at devnum next. */ 
1685 devnum = find next zero bit (dev->bus—>devmap. devicemap, 128, devnum next); 
1686 if (devnum >= 128) 

1687 devnum = find next zero bit(dev-^bus-»devmap. devicemap, 128, 1); 
1688 

1689 devnum next - devnum * 1; 

1690 if (devnum next >= 128) 

1691 devnum next = 1; 

1692 Hendif /* round robin alloc of devnums */ 

1693 

1694 if (devnum < 128) { 

1695 set bit(devnum, dev—>bus—>devmap. devicemap) ; 

1696 dev->devnum = devnum; 

1697 } 

1698 } 


接 下 去 ， 就 要 与 目标 设备 (这 里 是 根 集中 器 ) 建 立 起 实际 的 联系 了 ， 这 就 是 对 日 标 设备 的 “ 枚 举 ” 
它 是 一 个 顾 为 复杂 的 过 程 。-- 般 而 言 ， 当 把 个 USB 设备 插入 一 个 USB 集中 器 的 某 个 “端口 ”时 ， 
集中 器 跳 会 检测 到 设备 的 毛 入 ， 从 而 在 下 一 次 受到 主机 通过 中 断交 互 查询 时 就 会 向 其 报告 。 集 中 器 的 
端口 在 没有 设备 连接 时 都 处 于 关闭 状态 ， 揪 入 设备 以 后 也 不 会 自动 打开 ， 必 须 由 主机 通过 控制 交互 发 
出 命令 予以 打开 。 所 以 ， 得 到 集中 器 的 报告 以 后 ， 主 机 中 的 USB RAP RA Ae LS WEE 
十 个 控制 交互 ， 并 向 集中 器 发 出 打开 这 个 端口 的 命令 。 这样， 新 搬入 的 设备 就 出 现在 USB 总 线 上 了 。 
要 在 主 控制 器 与 USB 设备 之 间 通 信 , USB 设备 就 必须 有 个 (在 总 线 上 ) 惟 一 的 地 址 。 所 有 的 USB 设备 在 
一 开始 时 都 使 用 “默认 ”地 址 0, 与 主机 中 的 USB 控制 器 建立 起 初始 道 信 以 后 再 出 主机 (当然 ， 实 际 上 
是 驱动 软件 ) 指 定 “个 地 址 ， 以 后 就 一 直 使 用 这 个 指定 的 地 址 ， 直 到 断 开 与 总 线 的 连接 为 止 。 这 里 ， 读 
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者 很 自然 会 产生 一 个 问题 ;如 果 连 接 在 总 线 上 的 所 有 USB 设备 在 一 开始 时 的 地 址 都 是 0, 孝 主机 的 USB 
控制 器 在 初始 化 时 期 怎么 能 与 具体 的 上 月 标 设备 通信 昵 ? 其 实 很 简单 ， 不管 有 多 少 个 USB 设备 同时 连接 
到 各 个 集中 器 上 ， 总 线 控 制 器 总 是 打开 一 个 端口 就 指定 一 个 地 址 ， 然 后 再 打开 下 一 个 端口 ， 决 不 会 在 
尚未 为 已 打开 的 端口 所 连接 的 设备 指定 好 地 址 之 前 就 又 打开 另 - -个 端口 。 这 样 ， 在 同时 间 里 ，USB 
总 线 上 最 多 只 会 有 一 个 设备 在 使 用 地 址 0。 

枚 举 过 程 中 主机 与 设备 间 的 信息 交换 不 仅仅 是 为 设备 指定 地 址 ， 总 的 来 说 有 下 面 这 一 些 步 又 : 

(1) 为 设备 指定 地 址 。 

(2) 从 设备 读 入 其 usb_device_descriptor 数据 结构 。 

(3) 从 设备 读 入 其 所 有 的 “配置 ”描述 结构 。 

(4) 选择 或 改变 设备 的 配置 。 

根 设备 与 总 线 控制 器 的 连接 是 固定 的 ， 不 需要 通过 另 一 个 集中 器 的 报告 ， 所 以 直接 就 可 以 开始 其 
枚 举 过 程 ， 这 是 由 usb new, device( ) 完 成 的 ， 其 代码 在 drivers/usb/usb.c 中 。 我 们 分 段 阅读 。 





[pci module, init( ) > pci register driver( ) > pci announce device( ) > üt ee coe ) > setup uhci( ) 
> uhci start. root hub( ) > usb. new. device( )] 


2079 /* 

2080 * By the time we get here, the device has gotten a new device ID 
2081 * and is in the default state. We need to identify the thing and 
2082 * get the ball rolling.. 

2083 * 

2084 * Returns 0 for success, != 0 for error. 

2085 */ 

2086 int usb new device(struct usb device *dev) 

2087 { 

2088 int err; 

2089 

2090 /* USB v1.1 5.5.3 */ 

2091 /* We read the first 8 bytes from the device descriptor to get to */ 
2092 /* the bMaxPacketSizeO field. Then we set the maximum packet size */ 
2093 /* for the control pipe, and retrieve the rest */ 

2094 dev—>epmaxpacketin [0] = 8; 

2095 dev-^epmaxpacketout[0] = 8; 

2096 

2097 err = usb set address (dev); 

2098 if (err « 0) { 

2099 err ("USB device not accepting new address=%d (error=%d)”, 
2100 dev-^devnum, err); 

2101 clear bit(dev-^devnum, &dev->bus->devmap. devicemap) ; 

2102 dev-?devnum = ~l; 

2103 return l; 

2104 } 

2105 

2106 wait ms(10); /* Let the SET ADDRESS settle */ 

2107 
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2108 err = usb get_descriptor (dev, USRB DT_DEVICE, 0, &dev->descriptor, 8); 
2109 if (err < 8) { 

2110 if (err < 0) 

2111 err( USB device not responding, giving up (error=%d)”, err); 
2112 else 

2113 err("USB device descriptor short read (expected %i, got %i)”, 8, err): 
2114 clear_bit (dev->devnum, &dev—>bus—>devmap. devicemap) ， 

2115 dev->devnum - -1; 

2116 return 1; 

2117 } 

2118 dev-^epmaxpacketin [0] = dev—>descriptor. bMaxPacketSizeO0; 

2119 dev—>epmaxpacketout[0] ~ dev-descriptor. bMaxPacketSize0; 

2120 

2121 err = usb get device descriptor (dev); 

2122 if (err € sizeof (dev->descriptor)) | 

2123 if (err < 0) 

2124 err (“unable to get device descriptor (error=%d)”, err); 

2125 else 

2126 err("USB device descriptor short read (expected %i, got %i)”, 
2127 sizeof (dev->descriptor), err); 

2128 

2129 clear_bit (dev->devnum, &dev—>bus~>devmap. devicemap) : 

2130 dev—?devnum = 一 上 ; 

2131 return 1; 

2132 } 

2133 


USB 设备 内 部 有 者 干 用 本 与 主机 通信 的 “端点 ”(endpoinD， 每 个 端点 都 有 个 端点 号 ， 不 同类 型 的 
传输 使 用 不 同 的 端点 。 每 一 个 USB 设备 至 少 要 提供 用 于 控制 传输 的 控制 端点 ， 其 端点 号 为 0。 其 他 端 
点 则 视 具 体 设备 而 定 ， 例 如 扫描 器 就 不 会 有 等 时 传输 端点 ， 因 为 不 需要 。 控 制 端点 是 双向 的 ， 眠 可 用 
才 输 入 传输 ， 也 可 用 工 输 出 传输 。 在 每 次 传输 中 ， 遂 信 的 一 方 总 是 主机 中 的 USB 主 控制 器 ， 而 另 一 方 
Wird e MEE TE “地 确定 ， 称 为 一 个 “管道 ”(pipe)。 这 里 ， 首 先 将 把 目标 设备 〈 在 这 里 是 根 集 
RID 的 控制 端点 网 个 方向 上 上 的 信和 包 大 小 都 假定 为 8， 然后 就 通过 usb_set_address( ) 为 月 标 设备 指定 地 
HE(drivers/usb/usb.c). 


[pci module init( ) » pci register driver( ) > pci announce, device( ) > uhci, pci probe( ) > setup uhci( ) 
> uhci start root. hub( ) > usb. new, device( ) > usb. set. address( )] 


1708 int usb set address (struct usb device *dev) 


1709 { 

1710 return usb control msg(dev, usb snddefctrl(dev), USB REQ SET ADDRESS, 
1711 0, dev->devnum, 0, NULL, 0, HZ * GET TIMEOUT) ; 

PHA il 


这 里 的 usb. control. msg( ) 1] AN SR S BE T2: t P 4 2088 HS HR IT p s RADE EJ LUIS RA: USB 
BERBERTAN A eR, MA Hiec SL ICT Rn BA USB 控制 器 把 个 控制 报 文 发 
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送 给 目标 设备 。 如 果 探 制 传 输 硕 利 完成 就 迟 回 0， 否 则 返回 一 个 负 的 出 错 代 码 。 调 用 的 参数 表明 ， 使 用 
的 管道 是 “snddefctrl ”>， 即 默认 的 地 址 0 加 上 控制 端点 号 0， 交 互 的 方 同 为 输出 。 此 外 ， 发 送 给 设备 的 
命令 码 古 USB_REQ_SET_ADDRESS， 即 没 星 地 址 ;而 所 设置 的 地 址 为 dev->devnum， 即 目标 疫 备 的 
We: 没有 附加 数据 ; 允许 等 待 传输 完成 的 时 间 是 3 秒 ， 即 HZ*GET_TIMEOUT， 这 里 HZ 表 人 小 一 
$b, ifj GET. TIMEOUT 则 定义 为 3。 

假定 日 标 设备 顺利 地 完成 了 设置 地 址 的 操作 ， 经 过 一 个 短暂 的 延迟 (2106 行 ) 以 后 ， 就 可 以 使 用 新 
的 地 址 请 动 太一 次 控制 传输 ， 从 目标 设备 谈 入 其 设备 描述 块 ， 即 usb device descriptor 数据 结构 了 。 这 
是 由 usb_get_descriptor( ) 完 成 的 ， 其 代码 在 drivers/usb/usb.c H: 


[pci module, init( ) > pci register. driver( ) > pci announce, device( ) > uhci pci probe( ) > setup_uhci( ) 
> uhci start root. hub( ) > usb, new. device( ) > usb. get. descriptor ( )] 


1714 int usb get descriptor (struct usb device *dev, unsigned char type, 
unsigned char index, void *buf, int size) 

1715 { 

1716 int i = 5; 

1717 int result; 

1718 

1719 memset (buf, 0, size); // Make sure we parse really received data 

1720 

1721 while (i- 1 

1722 if ((result = usb control msg(dev, usb rcvctrlpipe(dev, 0), 

1723 USB REQ GET DESCRIPTOR, USB DIR. IN, 

1724 (type << 8) + index, 0, buf, size, HZ * GET TIMEOUD) > 0 |! 

1725 result -- -EPIPE) 

1726 break: /* retry if the returned length was 0; flaky device */ 

1721 ) 

1728 return result; 

17228 } 


这 ”次 ， 使 用 的 管道 为 “rcvctrlpipe”， 即 目标 设备 的 地 址 加 端点 号 0， 方 站 为 输入 。 对 设备 的 命令 
为 USB_REQ_GET_DESCRIPTOR， 邮 读 取 描述 块 。 可是， 设备 中 不 仅 有 “设备 描述 块 ”"” 还 有 “接口 
描述 块 “配置 摘 述 块 ” 等 等 ， 所 以 前 面 在 调用 时 指明 为 USB_DT_DEVICE， 即 设备 描述 块 。 有 关 的 
儿 个 常数 定义 于 include/linux/usb.h: 


44 /* 

45 * Descriptor types 

46 */ 

47 #define USB DT DEVICE 0x01 
48 define USB DT CONFIG 0x02 
49 #define USB DT STRING 0x03 
50 &define USB DT INTERFACE 0x04 
51 #define USB_DT_ENDPOTNT 0x05 

调用 参数 还 表明 , 只 从 设备 描述 结构 中 读 取 8& 字 了。 完成 了 传输 、 将 所 需 的 内 容 读 入 dev-»descriptor 


- 445 . 


Linux PH Ee RO CPR APD 


以 后 ， 还 要 根据 来 自 设 备 的 数据 ， 调 整 控 制 交 互信 和 包 的 最 大 容量 (2118~2119 fT). Ri, Had 
usb get device descriptor( ) 重 读 - -次 目标 设备 的 设备 描述 结构 。 其 代码 在 drivers/usb/usb.c 中 。 


[pci module, init( ) > pci_register_driver( ) > pci_announce_device( ) > uhci_pci_probe( ) > setup uhci( ) 
> uhci_start_root_hub( ) > usb_new_device( ) > usb_get_device_descriptor( )] 


1746 int usb get device descriptor (struct usb device *dev) 


1747 { 

1748 int ret = usb get descriptor(dev, USB DT DEVICE, 0, &dev—>descriptor, 
1749 sizeof (dev-^descriptor)); 
1750 if (ret >= 0) { 

1751 lel6 to cpus (&dev—->descriptor. bcdUSB) ; 
1752 lel6 to cpus (&dev—>descriptor. idVendor) ; 
1753 lel6 to cpus(&dev-^descriptor. idProduct) ; 
1754 lel6 to cpus (&dev—>descriptor. bcdDevice) ; 
1755 ) 

1756 return ret; 

1757 } 


这 一 次 读 入 的 是 整个 设备 描述 结构 。 那 么 ， 为 什么 先 要 按 8 个 字 节 先 读 一 次 呢 ? 这 是 因为 开始 时 
还 不 知道 对 方 所 支持 的 信和 包容 量 ， 这 个 信息 在 对 方 的 设备 描述 结构 的 开头 8 个 字 节 中 ; Ril, 84TH 
信和 包容 量 是 所 有 设备 都 支持 的 ， 所 以 先 核 最 低 标 准 先 读 一 次 ， 读 入 了 设备 描述 结构 的 开头 8 个 字 节 以 
后 ， 就 知道 了 对 方 所 支持 的 最 大 信和 包容 量 ， 以 后 就 可 以 按 这 个 容量 传输 了 。 此 外 ， 从 设备 读 入 的 16 位 
整数 都 是 “little ending” 的 格式 ， 所 以 要 把 它们 转换 成 主机 CPU 所 采用 的 格式 。 

读 入 设备 描述 结构 以 后 ， 接 着 还 要 读 入 有 关 设 备 配置 的 信息 。 我 们 继续 往 下 读 usb_new_device( ) 
的 代码 (drivers/usb/usb.c)。 


[pci module init( ) > pci_register_driver( ) > pci_announce_device( ) > uhci_pci_probe( ) > setup_uhci( ) 
> uhci start root hub( ) > usb_new_device( )] 


2134 err = usb get configuration (dev); 

2135 if (err « 0) { 

2136 err (“unable to get device %d configuration (error=%d)”, 

2137 dev-^devnum, err); 

2138 clear bit(dev-»devnum, &dev->bus—>devmap. devicemap) ; 

2139 dev~>devnum = -1; 

2140 usb free dev (dev) ; 

2141 return 1; 

2142 } 

2143 

2144 /* we set the default configuration here */ 

2145 err = usb set configuration(dev, dev—>config[0]. bConfigurationValue) ; 
2146 if (err) { 

2147 err (“failed to set device %d default configuration (error=%d)”, 
2148 dev—->devnum, err); 
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2149 
2150 
2151 
2152 
2153 
2154 
2155 


2156 
2151 
2158 
2159 
2160 
2161 
2162 
2163 
2164 
2165 
2166 
2167 
2168 
2169 
2170 
2171 
2172 
2173 
2174 
2175 


clear_bit(dev->devnum, &dev->bus->devmap. devicemap) ; 
dev->devnum = -1; 
return 1; 


} 


dbg (“new device strings: Mfr=%d, Product=%d, SerialNumber=%d”, 
dev->descriptor. iManufacturer, dev->descriptor. iProduct, 
dev—>descriptor. iSerialNumber) ; 
#ifdef DEBUG 
if (dev-^descriptor. iManufacturer) 
usb show string(dev, "Manufacturer", dev-^descriptor. iManufacturer) ; 
if (dev descriptor. iProduct) 
usb show string(dev, “Product”, dev-»descriptor. iProduct) ; 
if (dev->descriptor. iSerialNumber) 
usb show string(dev, “SerialNumber”, dev-^descriptor. iSerialNumber) ; 
Bendif 


/* now that the basic setup is over, add a /proc/bus/usb entry */ 
usbdevfs add device (dev); 


/* find drivers willing to handle this device */ 
usb find drivers(dev); 


/* userspace may load modules and/or configure further */ 
call policy (“add”, dev); 


return 0; 


} 


设备 的 每 一 种 其 体 的 配置 都 由 一 个 usb_config_descriptor 数据 结构 加 以 描述 ， 定 义 才 


include/linux/usb.h: 


280 
281 
282 
283 
284 
289 
286 
287 
288 
289 
290 
291 
292 
293 
294 


/* Configuration descriptor information:. */ 
struct usb config descriptor | 


...u8  bLength | attribute ((packed)); 

__u8 bDescriptorType _ attribute ^ ((packed)); 

| ul6 wlotalLength | attribute ((packed)) ; 

= u8 bNumlnterfaces _ attribute ( (packed)) ; 

__u8 bConfigurationValue ^ attribute ^ ((packed)); 
u8 iConfiguration __attribute__ ((packed)); 

| u8 bmAttributes | attribute ((packed)): 
u8 MaxPower __attribute__ ((packed)); 


struct usb interface *interface; 


unsigned char *extra; /* Extra descriptors */ 
int extralen; 
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结构 中 指针 interface 以 前 的 部 分 (282 一 289 行 ) 与 直接 从 设备 读 取 的 “配置 描述 块 ” 格 式 相 同 。 
函数 usb get configuration( ) 的 代码 在 drivers/usb/usb.c FP: 


[pci module. init( ) > pci register driver( ) > pci announce, device( ) > uhci pci probe( ) > setup uhci( ) 
> uhci start root hub( ) > usb, new. device( ) > usb get configuration( )] 


1926 int usb get configuration (struct usb device *dev) 

1927 { 

1928 int result; 

1929 unsigned int cfgno, length; 

1930 unsigned char buffer[8]; 

1931 unsigned char *bigbuffer; 

1932 struct usb config descriptor *desc - 

1933 (struct usb config descriptor *)buffer; 

1934 

1935 if (dev->descriptor. bNumConfigurations > USB MAXCONFIG) { 
1936 warn(”too many configurations”); 

1937 return -EINVAL; 

1938 } 

1939 

1940 if (dev->descriptor. bNumConfigurations < 1) { 

1941 warn(”not enough configurations"); 

1942 return -EINVAL; 

1943 } 

1944 

1945 dev->config = (struct usb config descriptor *) 

1946 kmalloc(dev-^descriptor. bNumConfigurations * 

1947 sizeof (struct usb config descriptor), OFP KERNEL); 
1948 if (!dev->config) | 

1949 err (“out of memory”); 

1950 return -ENOMEM; 

1951 ) 

1952 memset(dev-^config, 0, dev->descriptor. bNumConfigurations * 
1953 sizeof (struct usb config descriptor)); 

1954 

1955 dev-^rawdescriptors = (char **)kmalloc (sizeof (char *) * 
1956 dev->descriptor. bNumConfigurations, GFP_KERNEL) ; 

1957 if (!dev-?rawdescriptors) f 

1958 err( out of memory ^); 

1959 return —-ENOMEM; 

1960 } 

1961 

1962 for (efgno = 0; cfgno € dev—->descriptor. bNumConfigurations; cfgnot++) { 
1963 /* We grab the first 8 bytes so we know how long the whole */ 
1964 /* configuration is */ 
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1965 
1966 
1967 
1968 
1969 
1970 


1971 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
1979 
1980 
1981 
1982 
1983 
1984 
1985 
1986 
1987 
1988 
1989 
1990 
1991 
1992 
1993 
1994 
1995 
1996 
1997 
1998 
1999 
2000 
2001 
2002 
2003 
2004 
2005 
2006 
2007 
2008 
2009 
2010 
2011 


result = usb get descriptor (dev, USB DT CONFIG, cfgno, buffer, 8); 
if (result < 8) { 
if (result < 0) 
err ("unable to get descriptor"); 
else { 
err('config descriptor too short (expected Wi, got %i)”, 
8, result); 
result - -EINVAL; 
} 


goto err; 


} 


/* Get the full buffer */ 
length = lelé to cpu(desc-^wTotalLength) ; 


bigbuffer - kmalloc(length, GFP KERNEL); 

if (!bigbuffer) { 
err('unable to allocate memory for configuration descriptors”) ; 
result = -ENOMEM; 
goto err; 


} 


/* Now that we know the length, get the whole thing */ 
result = usb get descriptor (dev, USB DT CONFIG, cfgno, bigbuffer, length); 
if (result < 0) { 

err ("couldn t get all of config gesor POER: Si 

kfree (bigbuf fer) ; 

goto err; 


j 


if (result < length) { 
err ("config descriptor too short (expected i, got %i)”, length, result); 
result = -EINVAL; 
kfree(bigbuffer); 
goto err; 


} 
dev—>rawdescriptors[cfgno] = bigbuffer; 


result = usb parse configuration(dev, &dev->configlcfgno], bigbuffer) ; 
if (result > 0) 

dbg (“descriptor data left”); 
else if (result < 0) { 

result = ~EINVAL; 

goto err; 
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2012 return 0; 

2013 err: 

2014 dev->descriptor. bNumConfigurations = cfgno; 
2015 return result; 

2016  ] 


每 个 USB 设备 至 少 有 一 个 配置 描述 块 。 设备 描述 块 中 的 字段 bNumConfigurations 说 明了 本 设备 有 
几 个 配置 描述 块 ， 但 最 多 不 能 超过 USB_MAXCONFIG， 即 8 个。 根据 这 个 字段 的 数值 ， 可 以 为 目标 设 
备 分 配 用 于 相应 描述 结构 的 空间 ， 并 让 目标 设备 的 usb, device 数据 结构 通过 其 指针 config 指向 这 块 空 
间 。 此 外 ，usb_device 数据 结构 中 还 有 个 指针 rawdescriptors， 应 该 指向 一 个 指针 数组 ， 该 数组 中 的 每 
一 个 元 素 都 指 问 一 个 从 设备 读 入 的 配置 描述 块 ， 所 以 其 大 小 也 取决 于 配置 描述 块 的 个 数 。 做 好 了 这 些 
准备 以 后 ， 就 通过 一 个 for 循环 1962 行 ) 从 设备 依次 读 入 各 个 配置 描述 块 。 配 置 描述 块 的 读 入 还 是 
由 usb get descriptor( ) 完 成 , 但 是 从 代码 中 可 以 看 出 现在 要 读 入 的 是 USB_DT_CONFIG。 每 次 先 读 入 8 
个 字 节 ， 读 入 的 信息 暂时 存放 在 buffer 中 。 根 据 读 入 信息 中 的 wTotalLength 可 以 知道 实际 的 大 小 ， 然 
后 再 分 配 足 够 大 的 空间 ， 再 调用 一 次 usb_get_descriptor( )， 把 整个 描述 块 读 进 来 ,并 将 其 起 始 地 址 放 在 
rawdescriptors 所 指 的 指针 数组 中 。 

每 个 配置 描述 块 是 作为 “个 整体 读 入 缓冲 区 的 。 配 置 描述 块 中 包含 着 若 于 个 “接口 描述 块 ” 而 每 
RHR MY Wea EH OR”, 各 种 次 层 描 述 块 的 数量 则 因 具 体 的 配置 而 异 ， 所 以 
配置 描述 块 的 大 小 并 非常 数 。 同 时 ， 这 些 描 述 块 中 又 可 以 包含 些 由 其 体 设 备 的 制造 商 或 行业 协会 自 
行 定义 的 次 层 描述 块 。 所 以 ， 每 读 入 一 个 配置 描述 块 以 后 ， 部 楼 通过 usb_parse_configuration() 加 以 分 
析 辩 认 ， 从 配置 描述 块 中 分 解 出 苔 个 次 层 描述 块 ， 并 为 这 些 描述 抉 建 立 起 相应 的 数据 结构 ， 以 形成 对 
目标 设备 各 个 层次 的 描述 。 其 代码 在 drivers/usb/usb.c #: 


[pci module. init( ) > pci_register_driver( ) > pci announce, device( ) > uhci_pci_probe( ) > setup_uhci( ) 
> uhci_start_root_hub( ) > usb_new_device( ) usb get configuration( ) > usb_parse_configuration( )] 


1399 int usb_parse_configuration (struct usb device *dev, 
struct usb config descriptor *config, char *buffer) 

1400 { 

1401 int i, retval, size; 

1402 struct usb descriptor header *header; 

1403 

1404 memcpy (config, buffer, USB DT CONFIG SIZE); 

1405 lel6 to cpus(&config-^wlotalLength) ; 

1406 size = config->wlotalLength; 

1407 

1408 if (config->bNumInterfaces > USB MAXINTERFACES) [| 

1409 warn(”too many interfaces ^); 

1410 return -1; 

1411 } 

1412 

1413 config->interface = (struct usb interface *) 

1414 kmalloc (config—>bNumInterfaces * 

1415 sizeof (struct usb interface), GFP KERNEL); 
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1416 dbg("kmalloc IF %p, numif %i”, config->interface, config->bNumInterfaces) ; 

1417 if (!config— interface) | 

1418 err ("out of memory”) ; 

1419 return -1; 

1420 ] 

1421 

1422 memset (config~>interface, 0, 

1423 config->bNumInterfaces * sizeof (struct usb interface)) ; 

1424 

1425 buffer += config->bLength; 

1426 size -= config->bLength; 

1427 

1428 for (i = 0; i € config->bNumInterfaces; i++) { 

1429 int numskipped, len; 

1430 char *begin; 

1431 

1432 /* Skip over the rest of the Class Specific or Vendor */ 

1433 /* Specific descriptors */ 

1434 begin = buffer; 

1435 numskipped = 0; 

1436 while (size >= sizeof(struct usb_descriptor_header)) { 

1437 header = (struct usb descriptor header *) buffer; 

1438 

1439 if ((header—>bLength > size) || (header->bLength < 2)) | 

1440 err (“invalid descriptor length of %d”, header->bLength) ; 

1441 return -1; 

1442 } 

1443 : 

1444 /* If we find another descriptor which is at or below */ 

1445 /* us in the descriptor heirarchy then we re done */ 

1446 if ((header-»bDescriptorType == USB DT ENDPOINT) || 

1447 (header—>bDescriptorType == USB DT INTERFACE) || 

1448 (header->bDescriptorType == USB DT CONFIG) || 

1449 (header->bDescriptorType == USB DT DEVICB)) 

1450 break; 

1451 

1452 dbg (“skipping descriptor 0x%X”, header->bDescriptorType) ; 

1453 numskipped++ ; 

1454 

1455 buffer += header->bLength; 

1456 size -= header—>bLength; 

1457 } 

1458 if (numskipped) 

1459 dbg ("skipped *d class/vendor specific endpoint descriptors^, 
numskipped) ; 

1460 

1461 /* Copy any unknown descriptors into a storage area for */ 

1462 /* drivers to later parse */ 
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1463 len = (int) (buffer - begin); 

1464 if (!len) { 

1465 config-^extra = NULL; 

1466 config->extralen = 0; 

1467 } else { 

1468 config-^extra = kmalloc(len, GFP KERNEL); 
1469 if (!config->extra) { 

1470 err (“couldn't allocate memory for config extra descriptors’): 
1471 config->extralen = 0; 

1472 return -1; 

1473 j 

1474 

1475 memcpy (config->extra, begin, len): 

1476 config-^extralen = len; 

1477 ] 

1478 

1479 retval = usb parse interface(dev, config-^interface + i, buffer, size); 
1480 if (retval < 0) 

1481 return retval; 

1482 

1483 buffer += retval; 

1484 size — retval; 

1485 ] 

1486 

1487 return size; 

1488 ] 


参数 config 指向 一 个 usb. config, descriptor 数据 结构 ， 而 buffer 则 指向 刚 从 设备 读 入 的 “原始 ” 配 
置 描述 鼎 绥 冲 区 。 首 先 将 缓冲 区 的 前 9 个 字 节 复制 到 usb config descriptor 结构 路 ， 这 里 的 
USB DT CONFIG SIZE 定义 为 9。 配置 描述 块 中 的 bNumInterfaces 说 明 在 本 配置 中 设备 中 有 儿 个 “ 接 
O”. Miia 一 个 接口 ， 就 是 指 USB 设备 中 的 一 项 特定 的 功能 ， 也 就 是 逻辑 设备 。 我 们 可 以 在 逻辑 上 把 
每 个 具体 的 “接口 ”看 成 一 组 端点 的 集合 ， 就 好 像 把 传统 的 外 设 接口 看 成 一 组 寄存 器 或 存储 区 间 的 集 
合 一 样 。 但 是 ， 即 使 是 对 于 同一 个 接口 ， 即 同一 个 逻辑 设备 ， 也 还 是 可 以 有 几 种 不 同 的 “设置 ”可 供 
选用 ， 在 某 种 意义 上 可 以 看 作 是 同一 类 逻辑 设备 的 不 同 实现 。 这 就 好 像 同样 是 录音 机 却 仍 可 以 组 合成 
不 同 的 性 能 ， 将 各 个 按 扭 用 于 不 同 的 控制 对 像 。 当 然 ， 在 任何 特定 的 时 刻 ， 只 能 选用 其 中 一 种 。 所 以 ， 
在 内 仓 中 为 每 一 个 逻辑 设备 建立 起 一 个 usb interface 数据 结构 。 这 种 数据 结构 定义 于 
include/linux/usb.h: 


269 struct usb interface | 

270 struct usb interface_descriptor *altsetting; 

211 

272 int act altsetting; /* active alternate setting */ 

273 int num altsetting; /* number of alternate settings */ 
274 int max altsetting; /* total memory allocated */ 
275 
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276 struct usb driver *driver; /* driver */ 
211 void *private data; 
278 E 


结构 中 的 指针 altsetting 指向 一 个 usb. interface. descriptor 数据 结构 的 数组 , RA PN fe CR e 
来 白 设备 的 “接口 描述 块 ”， 代 表 着 该 接口 的 AHA RA”, M act_altsetting Jl! iE RH SATA AE 
其 中 的 哪 一 个 。 这 个 数据 结构 是 在 include/linux/usb.h 中 定义 的 : 


251 /* Interface descriptor */ 

252 struct usb_interface descriptor { 

253 __u8 bLength || attribute ({packed)); 

254 __u8 bDescriptorType _ attribute __ ((packed)); 
255 __u8 blnterfaceNumber attribute ((packed)); 
256 __u8 bAlternateSetting | attribute ((packed)); 
251 = u8 bNumEndpoints | attribute ^ ({packed)) ; 

258 | u8 biInterfaceClass . attribute  ((packed)); 
259 | u8 bInterfaceSubClass , attribute . ((packed)); 
260 __u8 blnterfaceProtocol | attribute | ((packed)); 
261 | u8 ilInterface | attribute _ ((packed)); 

262 

263 struct usb endpoint descriptor *endpoint; 

264 

265 unsigned char *extra; /* Extra descriptors */ 
266 int extralen; 

267 lk 


指针 endpoint 以 前 的 字段 均 来 日 日 标 设备 ,注意 这 个 结构 中 的 bInterfaceNumber 和 OR 
两 个 宁 段 。 当 :个 接口 有 几 个 不 同 的 “设置 ”可 供 选 用 时 ， 设 备 就 会 提供 相应 数量 的 接口 描述 块 ， 
些 描述 块 都 有 相同 的 “接口 号 ”但 是 “设置 写 ” 加 各 个 相同， 其 中 第 一 个 接 帆 描述 块 的 “设置 号 ” : 
0。 所 以 ， 在 一 连 串 的 接 癌 描述 块 中 ， 每 个 “设置 号 ”为 0 的 描述 块 都 标志 着 一 个 接口 的 开始 。 E 
口 至 少 包 含 一 个 设置 。 在 配置 描绘 块头 部 中 说 明了 本 配置 有 几 个 接口 ， 但 是 这 并 不 说 明石 几 个 接口 描 
述 块 ， 所 以 才 需 要 “parse” 即 分 析 辨 认 。 

知道 了 目标 设备 中 有 几 个 接口 ， 就 可 以 为 这 些 接口 的 usb. interface 4444) Ac E We AY 4 [8(01413 行 )， 
然后 通过 A for 循环 (1428 行 )， 依 次 从 已 经 读 入 组 神 区 的 信息 中 找到 属 才 各 个 接口 的 质 述 块 。 找 到 了 
一 个 接口 描述 的 开头 以 后 ， 就 通过 usb_parse_interface( ) 进 一 IP SEMA HA OT ER, 
其 代码 也 在 drivers/usb/usb.c 中 。 这 个 函数 比较 长 ， 我 们 得 要 分 段 阅读 。 


[pci module, init( ) > pci register driver( ) > pci announce device( ) > uhci pci probe( ) > setup uhci( ) 
> uhci start root hub( ) > usb new. device( ) > usb, get configuration( ) > usb parse, configuration( ) 
» usb parse, interface( )] 


1247 static int usb parse interface (struct usb device *dev, 
struct usb interface *interface, unsigned char *buffer, int size) 


1248 { 
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int i, len, numskipped, retval, parsed = 0; 
struct usb descriptor header *header; 
struct usb interface descriptor *ifp; 
unsigned char *begin; 


interface->act altsetting = 0; 
interface->num_altsetting = 0; 
interface—>max_altsetting = USB ALTSETTINGALLOC; 


interface—Paltsetting = 


kmalloc (sizeof (struct usb interface descriptor) * interface->max_altsetting, 


GFP KERNEL) ; 


if (linterface- ?altsetting) { 
err ("couldn t kmalloc interface->altsetting”) ; 
return -1; 


} 


while (size > 0) { 
if (interface—->num_altsetting >= interface->max altsetting) | 
void *ptr; 
int oldmas; 


oldmas = interface->max_altsetting; 
interface—>max_altsetting += USB ALTSETTINGALLOC; 
if (interface-^max altsetting > USB MAXALTSETTING) { 
warn(^too many alternate settings (max %d)”, 
USB MAXALTSETTING) ; 
return -1; 


} 


ptr = interface—>altsetting; 
interface—-altsetting = kmalloc( 
sizeof (struct usb interface descriptor) * interface—>max_altsetting, 
GFP_KERNEL) ; 
if (!interface-altsetting) | 
err (“couldn t kmalloc interface-^altsetting ); 
interface->altsetting = ptr; 
return -1; 
} 
memcpy (interface->altsetting, ptr, 
sizeof (struct usb interface descriptor) * oldmas) ; 


kfree (ptr) ; 
} 


ifp = interface>altsetting + interface—>num_altsetting; 
interface->num_altsettingt+; 
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memcpy(ifp, buffer, USB DT INTERFACE SIZE); 


/* Skip over the interface */ 
buffer += ifp-—>bLength; 
parsed += ifp-^bLength; 

size -= ifp->bLength; 


begin = buffer; 
numskipped = 0; 


/* Skip over any interface, class or vendor descriptors */ 
while (size >= sizeof(struct usb descriptor header)) | 


header - (struct usb descriptor header *)buffer; 


if (header->bLength < 2) { 


err ("invalid descriptor length of %d”, header—>bLength) ; 


return -1; 


} 


/* If we find another descriptor which is at or below */ 

/* us in the descriptor heirarchy then return */ 

if ((header->bDescriptorType == USB DT INTERFACE) || 
(header— bDescriptorType == USB DT ENDPOINT) || 
(header— bDescriptorType == USB DT CONFIG) || 
(header—bDescriptorType == USB DT DEVICE)) 
break; 


numskipped++， 
buffer += header->bLength 
parsed += header->bLength; 


size -= header-—>bLength; 
} 


if (numskipped) 


dbg ("skipped *d class/vendor specific interface descriptors’, 
numskipped) ; 


/* Copy any unknown descriptors into a storage area for */ 
/* drivers to later parse */ 
len = (int) (buffer - begin); 
if (!len) { 
ifp-^extra = NULL; 
ifp-^extralen = Q; 
} else { 
ifp->extra = kmalloc(len, GFP KERNEL); 
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1339 if (!ifp->extra) { 

1340 err(“couldn’ t allocate memory for interface extra descriptors’): 
1341 ifp->extralen = 0; 

1342 return -1; 

1343 } 

1344 memepy (ifp—>extra, begin, len); 

1345 ifp->extralen = len; 

1346 } 

1347 


在 usb parse configuration( ) 中 ， 根 据 设 备 在 其 体 配 置 下 接口 的 个 数 ， 为 usb interface 结构 分 配 了 
空间 ， 可 是 还 没有 为 usb_interface_descriptor 结构 分 册 空 则 。 一 般 的 接 串 最 多 可 以 有 4 个 接口 描述 块 ， 
这 里 的 常数 USB_ALTSETTINGALLOC 定义 为 4。 代 码 中 先 按 4 个 usb. interface descriptor 结构 分 配 空 
[B], 然后 通过 一 个 while 循 坏 从 前 面 读 日 日 标 设备 的 绥 冲 区 中 寻找 和 抽取 有 关 的 信息 。 当 一 个 接口 中 有 
多 于 4 个 设置 的 时 候 ， 人 允许 再 增加 4 个 (1271 行 )， 所 以 要 重新 分 配 一 块 连续 的 空间 。 这 里 的 常数 
SB_ALTSETTINGALLOC 也 定义 为 4， 再 多 就 不 多 许 耳 。 

fr while 循环 中 ， 首 先 从 缓冲 区 中 复制 一 个 接口 朱 述 块 ， 并 相应 地 调整 指针 buffer 利 parsed, WR 
剩余 部 分 的 大 小 。 然 后 就 来 分 析 处 理 这 个 描述 块 所 提供 的 信息 。 

每 个 接口 描述 块 的 开头 是 两 个 字 节 的 usb descriptor header 数据 结构 ， 说 明了 描述 块 的 大 小 与 类 
型 ， 定 义 十 include/linux/usb.h: 


212 /* All standard descriptors have these 2 fields in common */ 
213 struct usb_descriptor_header { 

214 u8 bLength; 

215 ..u8 bDescriptorType; 

216 } attribute — ((packed)): 


如 果 描 述 块 的 类 型 为 USB DT INTERFACE. USB DT ENDPOINT. USB DT CONFIG, Wk 
USB DT DEVICE 这 4 者 之 5 Whi 个 USB 标准 的 描述 块 ， 否 则 就 把 它 跳 过 ， 继 续 往 下 看 下 一 个 描 
述 块 (1320 一 1324 fT, ULLA 1304 行 )。 被 距 过 的 描述 鼎 都 是 非 USB 标准 的 ， 一 般 是 山 其 体 厂 商 或 行业 
(如 数字 照相 机 行业 等 等 ) 自行 定义 的 。 对 于 这 些 非 USB 标准 的 描述 块 ， 方面 要 通过 dbg( yY AR 
告 ， 男 一 方面 ， 更 重要 的 是 ， 要 分 配 缓冲 区 将 这 些 描述 块 保存 下 来 (1332 一 1346 行 )， 以 备 将 来 由 具体 
设备 的 驱动 程序 作 进一步 的 分 析 ， 并 使 当前 usb interface. descriptor 数据 结构 中 的 指针 extra 指向 这 块 
缓冲 区 。 

至 此 ,我 们 已 经 从 原始 缓冲 区 中 找到 了 一 个 USB 标准 的 描述 块 ， 下 面 就 要 根据 这 个 描述 块 的 类 型 
来 决定 怎样 继续 往 下 分 析 了 。 我 们 继续 看 usb_parse_interface( ) 的 代码 (drivers/usb/usb.c)。 


[uhci_pci_probe( ) > setup, uhci( ) > uhci_start_root_hub( ) > usb_new_device( ) > usb_get_configuration( ) 
> usb parse configuration( ) > usb_parse_interface( ] 


1348 /* Did we hit an unexpected descriptor? */ 
1349 header = (struct usb descriptor header *)buffer; 
1350 if ((size >= sizeof(struct usb descriptor header)) && 
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1351 ((header->bDescriptorType == USB DT CONFIG) | | 
1352 (header-»bDescriptorType == USB DT DEVICE))) 
1353 return parsed; 

1354 

1355 if (ifp-»bNumEndpoinis > USB MAXENDPOINTS) | 

1356 warn(/too many endpoints”); 

1357 return -1; 

1358 } 

1359 

1360 ifp->endpoint = (struct usb_endpoint_descriptor *) 
1361 kmalloc(ifp-^bNumEndpoints * 

1362 sizeof(struct usb endpoint descriptor), GFP KERNEL); 
1363 if (!ifp-^endpoint) { 

1364 err ("out of memory”); 

1365 return -l; 

1366 } 

1367 

1368 memset(ifp-^endpoint, 0, ifp->bNumEndpoints * 

1369 sizeot (struct usb endpoint descriptor)); 

1370 

1371 for (i = 0; i < ifp—>bNumEndpoints; i++) 1 

1372 header - (struct usb descriptor header *)buffer; 
1373 

1374 if (header bLength > size) | 

1375 err (“ran out of descriptors parsing”); 
1376 return ~l; 

1377 } 

1378 

1379 retval = usb parse endpoint(dev, ifp >endpoint + i, buffer, size); 
1380 if (retval < 0) 

1381 return retval; 

1382 

1383 buffer += retval; 

1384 parsed *- retval; 

1385 size -= retval; 

1386 } 

1387 

1388 /* We check to see if it’s an alternate to this one */ 
1389 ifp = (struct usb interface_descriptor *) buffer; 
1390 if (size < USB DT INTERFACE SIZE || 

1391 ifp->bDescriptorType !- USB DT INTERFACE || 
1392 !ifp—>bAlternateSett ing) 

1393 return parsed; 

1394 } 

1395 

1396 return parsed; 

1397} 
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如 果 原 始 缓 冲 区 中 下 个 描述 块 的 类 型 是 USB. DT. CONFIG 或 USB. DT. DEVICE, 那 就 说 明 对 一 
个 痢 的 配置 或 设备 的 描述 开始 了 ， 当 前 配置 中 已 经 再 没有 更 多 的 接口 ， 所 以 便 返 回 此 时 在 原始 缓冲 区 
中 的 位 置 (1353 行 )， 供 更 高 层 的 函数 继续 往 下 分 析 。 和 否则 ， 如 果 下 一 个 描述 块 的 类 型 是 
USB, DT INTERFACE 或 USB_DT_ENDPOINT, 便 找到 了 对 下 一 个 接口 或 端点 的 描述 块 。 在 每 一 个 接 
口 描述 块 的 后 面 是 若干 端点 描述 块 。 

根据 已经 读 入 usb_interface_descriptor 数据 结构 的 信息 ， 可 以 知道 当前 “设置 ”中 有 几 个 端点 ， 从 
而 为 这 些 端 点 的 usb. endpoint. descriptor 数据 结构 分 配 空间 (1360 行 )。 这 种 数据 结构 是 对 端点 的 抽象 ， 
定义 于 include/linux/usb.h: 





236 /* Endpoint descriptor */ 
237 struct usb_endpoint_descriptor { 


238 __u8 bLength . attribute.  ((packed)); 
239 __u8 bDescriptorType | attribute | ((packed)); 
240 ..u8 bEndpointAddress | attribute  ((packed)); 
241 u8 bmAttributes . attribute . ((packed)); 
242 __ul6 wMaxPacketSize ^ attribute ((packed)); 
243 | u8 binterval . attribute ^ ((packed)); 
244 . .u8 bRefresh . attribute | ((packed)); 
245 . u8 bSynchAddress . attribute . ((packed)); 
246 

247 unsigned char *extra; /* Extra descriptors */ 
248 int extralen; 

249 }; 


每 “个 端点 都 有 个 固定 的 端点 号 ， 在 不 同 的 配置 中 一 个 端点 可 以 属于 不 同 的 接口 ， 但 是 其 端点 号 
不 会 改变 。 另 方面， 各 个 端点 的 最 大 信和 包容 量 、 中 断 传 输 的 应 有 周期 等 等 参数 也 各 不 相同 。 

然后 ， 就 是 通过 … 个 for 循环 依次 辨认 和 抽取 各 个 端点 描述 块 了 。 同 样 ， 每 个 端点 描述 块 的 开头 也 
是 由 一 个 usb descriptor header 数据 结构 说 明了 描述 块 的 大 小 。 对 端点 描述 块 的 分 析 是 由 
usb parse endpoint( ) 完 成 的 ， 其 代码 在 drivers/usb/usb.c 中 : 


Luhci_pci_probe( ) > setup. uhci( ) > uhci start root hub( ) > usb new device( ) > usb, get. configuration( ) 
> usb, parse configuration( ) > usb parse interface( ) > usb parse endpoint( )] 


1161 static int usb parse endpoint (struct usb device *dev, 
struct usb endpoint descriptor *endpoint, unsigned char *buffer, int size) 
1162 { 
1163 struct usb_descriptor header *header; 
1164 unsigned char *begin; 
1165 int parsed - 0, len, numskipped; 
1166 
1167 header = (struct usb descriptor header *) buffer: 
1168 
1169 /* Everything should be fine being passed into here, but we sanity */ 
1170 /* check JIC */ 
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1171 if (header->bLength > size) { 
1172 err(/ran out of descriptors parsing ); 
1173 return -1; 
1174 } 
1175 
1176 if (header->bDescriptorType !- USB DT ENDPOINT) | 
1177 warn ( 
“unexpected descriptor Ox%X, expecting endpoint descriptor, type Ox%X”, 
1178 endpoint—>bDescriptorType, USB DT ENDPOINT) ; 
1179 return parsed; 
1180 ) 
1181 
1182 if (header-^»bLength == USB DT ENDPOINT AUDIO SIZE) 
1183 memcpy (endpoint, buffer, USB DT ENDPOINT AUDIO SIZE); 
1184 else 
1185 memcpy (endpoint, buffer, USB DT ENDPOINT SIZE); 
1186 
1187 lel6 to cpus (kendpoint->wMaxPacketSize) ; 
1188 
1189 buffer += header->bLength; 
1190 size -= header->bLength; 
1191 parsed += header->bLength; 
1192 
1193 /* Skip over the rest of the Class Specific or Vendor Specific */ 
1194 /* descriptors */ 
1195 begin - buffer; 
1196 numskipped - 0; 
1197 while (size >= sizeof(struct usb descriptor header)) | 
1198 header = (struct usb descriptor header *) buffer; 
1199 
1200 if (header bLength < 2) { 
1201 err('invalid descriptor length of %d”, header-»bLength) ; 
1202 return -1; 
1203 } 
1204 
1205 /* Jf we find another descriptor which is at or below us */ 
1206 /* in the descriptor heirarchy then we're done x/ 
1207 if ((header—>bDescriptorType == USB_DT_ENDPOINT) | | 
1208 (header->bDescriptorType == USB DT INTERFACE) || 
1209 (header->bDescriptorType == USB DT CONFIG) | | 
1210 (header->bDescriptorType == USB DT DEVICE)) 
1211 break; 
1212 
1213 dbg( skipping descriptor Ox%X”, 
1214 header->bDescriptorType) ; 
1215 numsk ipped++ ; 
1216 
1217 buffer += header->bLength; 
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1218 size -= header->bLength; 

1219 parsed += header—>bl.ength; 

1220 } 

1221 if (numskipped) 

1222 dbg (skipped %d class/vendor specific endpoint descriptors”, numskipped); 
1223 

1224 /* Copy any unknown descriptors into a storage area for drivers */ 
1225 /* to later parse */ 

1226 len - (int) (buffer - begin); 

1227 if (!len) { 

1228 endpoint-^extra = NULL; 

1229 endpoint->extralen = 0; 

1230 return parsed; 

1231 } 

1232 

1233 endpoint->extra = kmalloc (len, GFP KERNEL): 

1234 

1235 if (!endpoint->extra) { 

1236 err(“couldn’t allocate memory for endpoint extra descriptors’) : 
1237 i endpoint->extralen = 0: 

1238 return parsed; 

1239 } 

1240 

1241 memcpy (endpoint—>extra, begin, len): 

1242 endpoint->extralen = len; 

1243 

1244 return parsed; 

1245 } 


AX HELP HIE Ai EER, BEL n RNIB LR ISI AN USB_DT_ENDPOINT, 3E y ED, i 
i E BR BB ARETE RA HE. RR RA ANE 7 个 字 节 ， 但 如 果 是 用 二 音频 设备 的 端点 则 有 9 
个 宁 节 ,把 描述 块 开头 的 7 个 或 9 个 字 节 复制 到 usb endpoint descriptor 数据 结构 中 , 并 相应 推进 buffer 
和 parsed， 调 整 还 剩 下 的 size 以 后 ， 对 一 个 端点 描述 块 的 处 理 就 结束 了 。 但 是 ， 在 端点 描述 块 这 dz 
上 也 会 有 非 标准 的 、 由 上 家 或 有 关 行业 自行 定义 的 描述 块 ， 所 以 也 要 跳 过 这 些 描 述 块 ， 并 像 前 面 看 到 
FREE 方面 通过 dbg() 提 出 报告 ， 一 方面 将 这 些 描述 块 复制 下 来 ， 留 待 将 来 由 具体 的 设备 驱动 程序 加 
以 分 析 。 

加 到 usb. parse interface( ) 的 代码 中 ， 在 给 仿 了 一 个 (接口 ) 设 置 的 所 有 端点 描述 块 以 后 ， 就 完成 了 
对 这 个 设置 的 处 理 。 如 果 原 始 缓冲 区 中 还 有 足够 的 内 容 ， 下 一 个 描述 块 义 是 个 接 叫 描述 块 ， 就 可 以 回 
到 while 循 坏 (1265 行 ) 的 开头 ， 继 续 扫描 原始 缓冲 区 中 剩 下 的 内 容 ， 处 理 于 一 个 设置 了 。 

处 理 完 一 个 配置 的 所 有 接口 以 后 , 使 从 usb_parse_configuration( ) 返 问 到 usb_get_configuration( ) 中 ， 
继续 读 入 和 处 理 下 一 个 配置 ， 直 到 完成 对 设备 的 所 有 陀 置 的 处 理 。 最 后 ， 返 回 到 usb_new_device( ) 的 
代码 中 (2135 行 )， 下 一 步 是 通过 usb_set_contiguration( ) 将 目标 设备 设置 成 采用 0 号 配置 ， 这 是 设备 多 
兴 的 配置 。 这 个 函数 的 代 代 在 drivers/usb/usb.c 中 
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[uhci_pci_probe( )>setup_uhci( ) > uhci_start_root_hub( ) > usb. new. device( ) > usb_set_configuration ( ) ] 


1884 int usb set configuration (struct usb device *dev, int configuration) 
1885 { 


1886 int i, ret; 

1887 struct usb config descriptor *cp = NULL; 

1888 

1889 for (i=0: i<dev—->descriptor. bNumConfigurations; i++) { 

1890 if (dev->configlil. bConfigurationValue == configuration) { 

1891 cp = &dev—>configlil; 

1892 break; 

1893 | 

1894 ) 

1895 if (lep) 4 

1896 warn( "selecting invalid configuration %d”, configuration); 

1897 return -EINVAL; 

1898 ) 

1899 

1900 if ((ret = usb control msg(dev, usb sndctrlpipe(dev, 0), 

1901 USB REQ SET CONFIGURATION, 0, configuration, 0, NULL, 0, HZ * SET TIMEOUT) 
) < 0) 

1902 return ret; 

1903 

1904 dev-^actconfig = cp; 

1905 dev-^toggle[0] = 0; 

1906 dev—'toggle[1] = 0; 

1907 usb set maxpacket (dev) ; 

1908 

1909 return 0; 

1910.) 


至 此 ， 作 为 PCI 设备 ， 并 且 作 为 USB 控制 器 的 枚 举 与 初始 化 已 经 完成 了 。 但是，USB EPH e 
须 与 总 线 的 根 集中 器 配合 才能 进行 有 意义 的 操作 。 根 集中 器 是 USB 主 控制 器 的 “大 门 ”。 而 上 上述 过 程 
尚未 触及 对 根 集中 器 的 初始 化 。 事 实 1, 根 集中 器 和 USB 总 线 控制 器 在 物理 上 总 是 集成 在 同一 设备 中 ， 
LA “设备 的 两 个 不 同 “ 接 口 ” 另 一 方面 , 根 集中 器 又 是 USB 集中 器 的 一 种 , deb 8E IURI RS USB 
集中 器 并 无 不 同 ，- 样 适用 USB 集中 器 的 驱动 模块 。 所 以 对 根 集 中 器 的 初始 化 只 有 在 安装 了 USB R 
中 器 的 驱动 模块 以 后 才能 进行 。 然 而 ， 对 USB 控制 器 的 枚 举 与 初始 化 跟 USB 集中 器 驱动 模块 的 安装 
是 两 个 独立 的 事件 ， 并 无 保证 何者 在 先 ， 何 者 在 后。 所 以 ， 就 有 了 两 种 可 能 的 情况 和 对 案 。 

如 果 USB 控制 器 的 枚 举 与 初始 化 在 先 ， 则 只 好 推迟 USB 集中 器 的 初始 化 。 到 安装 USB ARP ASIN 
了 驱动 模块 的 时 候 ， 可 以 让 它 来 “认领 ” 己 经 枚 举 的 根 集中 器 ， 然 后 对 其 进行 初始 化 。 对 丁 根 集中 败 ， 
这 是 可 能 性 最 大 的 情况 。 

如 果 USB 集中 器 的 驱动 模块 安装 在 先 ， 则 安装 时 认领 不 到 USB 集中 器 ， 因 而 无 事 串 做。 然后 ， 
在 完成 了 USB 总 线 控制 器 的 枚 举 与 初始 化 ， 并 检测 到 一 个 具体 USB 集中 器 的 存在 时 ， 就 设法 找到 其 
驱动 模块 ， 再 通过 该 驱动 模块 完成 其 初始 化 。 根 集中 器 是 特殊 的 USB 集中 器 ， 它 的 存在 是 个 需要 检测 
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的 ， 有 USB 总线 控制 器 就 必 和 有 根 集 中 器 ， 但 是 一 般 的 集中 器 就 不 同 了 。 实 际 上 ， 一 般 USB 设备 的 枚 
举 与 其 体 驱 动 模块 的 安装 更 加 随机 ， 因 为 USB 总 线 允 许 “ 热 插入 ”， 随 时 可 以 把 设备 插 上 拔 下 。 
所 以 ， 现 在 就 通过 usb find drivers( ) 来 找 找 ， 看 USB 集中 器 的 驱动 模块 是 个 已 经 安装 。 这 个 函数 
的 代码 在 drivers/usb/usb.c F: 


[uhci_pci_probe( ) > setup_uhci( ) > uhci_start_root_hub( ) > usb new. device( ) > usb_find_drivers( )] 


833 /* 

834 * This entrypoint gets called for each new device. 

835 * 

836 * All interfaces are scanned for matching drivers. 

837 */ 

838 static void usb find drivers (struct usb device *dev) 

839 { 

840 unsigned ifnum; 

841 unsigned rejected = 0; 

842 unsigned claimed = 0; 

843 

844 for (ifnum = 0; ifnum < dev—'aciconfig-^bNumInterfaces; ifnum++) { 
845 /* if this interface hasn't already been claimed */ 
846 if (!usb interface claimed(dev-^actconfig-^interface + ifnum)) { 
847 if (usb find interface driver(dev, ifnum)) 

848 re jectedt*; 

849 else 

850 claimed++; 

851 } 

852 } 

853 

854 if (rejected) 

855 dbg ("unhandled interfaces on device”): 

856 

857 if (!claimed) { 

858 warn ( 


“USB device %d (vend/prod Ox%x/0x%x) is not claimed by any active driver. ”, 
859 dev—->devnun, 
860 dev-^descriptor. idVendor, 
861 dev-^descriptor. idProduct) : 
862 #ifdef DEBUG 
863 usb show device (dev) ; 
864 #endif 
865 } 
866 } 


对 于 USB 主 控制 器 设备 的 每 一 个 接口 〈 其 中 之 一 必定 是 根 集中 器 )， 只 此 尚未 被 认领 ， 就 通过 
usb_find_interface_driver( ) 扫 摘 已 经 安装 的 驱动 模块 队列 并 进行 比 对 。 其 代码 在 同一 文件 中 ; 
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[uhci_pci_probe( ) > setup_uhci( ) > uhci start root. hub( ) > usb new. device( ) > usb_find_drivers( ) 
» usb find interface driver( )] 


623 
624 
625 
626 
627 
628 
629 
630 
631 
632 
633 
634 
635 
636 
637 
638 
639 
640 
641 
642 
643 
644 
645 
646 
647 
648 
649 
650 
651 
652 
653 
654 
655 
656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 


/* 

* This entrypoint gets called for each new device. 

* 

* We now walk the list of registered USB drivers, 

* looking for one that will accept this interface. 

* 

* "New Style" drivers use a table describing the devices and interfaces 
* they handle. Those tables are available to user mode tools deciding 
* whether to load driver modules for a new device. 

* 

* The probe return value is changed to be a private pointer. This way 
* the drivers don’t have to dig around in our structures to set the 

* private pointer if they only need one interface. 

* 

* Returns: 0 if a driver accepted the interface, -1 otherwise 


S 


{ 


*/ 


tatic int usb find interface driver (struct usb device *dev, unsigned i fnum) 


struct list head *tmp; 

struct usb interface *interface; 
void *private; 

const struct usb device id *id; 
struct usb driver *driver; 

int i; 


if ((!dev) || (ifnum >= dev->actconfig—>bNumInterfaces)) { 
err('bad find interface driver params”) ; 
return -1; 


j 
interface = dev-»actconfig-^interface + ifnum; 


if (usb interface claimed(interface)) 
return -1; 


private = NULL; 
for (tmp = usb driver list. next; tmp != &usb driver list;) | 


driver = Jist entry(tmp, struct usb driver, driver list); 
tmp = tmp->next; 


down (&driver- >serialize) ; 
id = driver->id_table; 
/* new style driver? */ 
if Ge 
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668 for (i = 0; i < interface->num altsetting; i++) { 
669 interface-»act altsetting = i; 

670 id = usb match id(dev, interface, id); 

671 ipd) 

672 private = driver-»probe (dev, ifnum, id): 
673 if (private !- NULL) 

674 break; 

675 ] 

616 } 

677 /* if driver not bound, leave defaults unchanged */ 
678 if (private == NULL) 

679 interface-^act altsetting = 0; 

680 } 

681 else /* “old style” driver */ 

682 private = driver->probe(dev, ifnum, NULL); 

683 

684 up (&driver—>serialize) ; 

685 if (private) { 

686 usb_driver_claim_interface(driver, interface, private) ; 
687 return 0; 

688 ] 

689 } 

690 

691 return -1; 

692 ] 


每 个 已 安装 的 驱动 模块 都 有 个 “ 比 对 表 ”， 说 明 洒 异 块 适用 于 哪些 或 什么 样 的 设备 ， 可 以 通过 
usb_match_id() 与 具体 设备 提供 的 数据 比 对 。 我 们 将 在 后 面 结合 扫描 器 的 驱动 列 出 这 个 函数 的 代码 。 比 
对 成 功 ， 即 找到 了 适用 的 驱动 模块 以 后 ， 就 对 目标 设备 《接口 》 执 行 由 驱动 模块 通过 函数 指针 probe 
提供 的 操作 ， 完 成 日 标 设备 ( 接 忆 的 初始 化 。 

在 我 们 这 个 情景 中 ， 假 定 USB 集中 器 的 驱动 模块 尚未 安装 ， 所 以 只 好 和 哲 绥 ， 等 竺 驱动 模块 的 安装 
m USB 集中 器 初始 化 的 进行 。 不 过 ，usb_new_device( ) 的 代码 中 还 调用 了 一 个 函数 call_policy( )， 这 水 
及 专 为 “ 热 插 入 ”而 设计 的 一 种 机 制 。 其 大 致 的 作用 和 过 程 是 让 call policy( ) 构 筑 一 个 命令 行 

"[sbin/hotplug usb” 以 及 必要 的 环境 变量 ,然后 创建 起 - “个 内 核 线 程 ， 再 让 这 个 线程 升级 成 为 一 个 进 
程 ， 并 执行 工具 软件 /sbin/hotplug 以 装 入 USB 集中 器 的 驱动 模块 。 限 十 篇 幅 ， 我 们 这 里 就 从 上 略 了 。 


AR æm ih F call_policy( ) 的 问 接 启动 ， 我 们 假定 USB 总 线 的 驱动 模块 或 迟 或 早 都 会 得 钊 安装 。 
安装 USB 总 线 的 最 动 模块 时 ， 就 会 执行 其 初始 化 程序 usb_init( )。 其 代码 在 drivers/usb/usb.c F: 


2243 static int __init usb init (void) 


2244 { 

2245 usb major init( ); 
2246 usbdevfs init( ); 
2247 usb hub init( ); 
2248 
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2249 return 0; 
2250 } 


drivers/usb/usb.c 中 : 


[usb, init( ) > usb_major_init( )] 


2208 int usb major init (void) 


22090 { 

2210 if (devfs_ register chrdev(USB MAJOR, “usb”, &usb fops)) { 
2211 err (“unable to get major %d for usb devices”, USB MAJOR); 
2212 return —EBUSY; 

2213 } 

2214 

2215 usb devfs handle = devfs mk dir(NULL, “usb”, NULL); 

2216 

2214 return 0; 

2218 ] 


对 这 段 代 码 己 经 没有 什么 可 说 的 了 。 此 外 ， 上 面 2246 fT usbdevfs init( MEH R AE I8] devfs 特殊 文 
件 系统 登记 , 读者 可 参阅 “设备 文件 系统 devfs” 一 节 。. 所 以 ,usb_init( ) 中 关键 的 操作 就 是 usb_hub_init( )。 
这 个 函数 的 代 但 在 drivers/usb/hub.c "P: 


[usb init( ) > usb_hub_init( )] 


786 int usb hub init (void) 


781 { 

788 int pid; 

789 

790 if (usb register(&hub driver) < 0) | 

791 err(“Unable to register USB hub driver”); 
192 return -1; 

193 } 

794 

795 pid = kernel thread(usb hub thread, NULL, 
796 CLONE FS | CLONE FILES ! CLONE SIGHAND) : 
797 if (pid >= 0) { 

798 khubd_pid = pid; 

199 

800 return 0; 

801 ] 

802 

803 /* Fall through if kernel thread failed */ 
804 usb deregister(&hub driver); 

805 err ("failed to start usb hub thread"); 
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807 return -1; 
808. } 


首先 通过 usb register( ) 登 记 一 个 USB 设备 驱动 模块 ,每 … 种 USB 设备 都 有 -个 usb driver 数据 结 
Kj, USB 集中 器 的 usb. driver 数据 结构 是 hub_driver， 定 义 于 drivers/usb/hub.c: 


775 static struct usb driver hub driver = { 


776 name: “hub”, 

TTT probe: hub_probe, 

778 ioctl: hub ioct!, 

779 disconnect: hub disconnect, 
780 id table: hub_id table, 
781 Hh 


我 们 将 在 后 面 以 扫描 器 为 实例 讲述 USB 设备 的 初始 化 时 ， 详 细 介绍 usb. register( )， 这 早先 简略 地 
说 明 一 下 。 所 有 的 USB 设备 都 采用 相同 的 主 设备 号 USB_MAJOR， 而 不 同类 的 USB 设备 则 由 次 设备 
号 区 分 。 内 核 中 有 个 以 次 设备 号 为 下 标的 usb. driver 结构 指针 数组 usb minors ]， 登 记 时 就 根据 基体 
usb. driver 结构 中 提供 的 次 设备 号 将 其 起 始 地 址 填 入 这 个 数组 中 。 上 面 hub_driver 的 定义 中 没有 列 出 其 
次 设备 号 ， 实 际 上 表示 USB 集中 器 的 次 设备 号 为 0。 此 外 ， 内 核 中 还 有 个 USB 驱动 模块 队列 
usb driver list， 登 记 时 把 usb driver 结构 通过 其 队列 头 driver. list 挂 入 这 个 队列 。 然 后 ， 还 要 对 已 经 枚 
举 的 所 有 USB 设备 的 usb_device 结构 进行 一 趟 扫描， 让 新 登记 的 驱动 模块 “认领 ”应 该 由 它 驱动 的 设 
备 《〈 或 接口 ) ， 如 果 找 到 了 就 对 其 执行 一 次 由 驱动 模块 提供 的 probe 操作 。 在 我 们 现在 这 个 情景 中 ， 
已 经 枚 举 的 USB 设备 只 有 一 个 ， 那 就 是 根 集中 器 ， 所 以 对 其 调用 由 hub driver 提供 的 probe 函数 
hub_probe( )。 其 代码 在 drivers/usb/hub.c 中 《〈 下 面 的 调用 路 径 中 跳 过 了 几 个 函数 ， 后 面 偿 会 介绍 ) 。 


[usb. init( ) > usb_hub_init( ) > usb_register( ) > usb scan devices( ) > usb, check, support( ) 
> usb find interface driver( ) > hub. probe( )] 


238 static void *hub probe(struct usb device *dev, unsigned int i, 
239 const struct usb device id *id) 

240 

241 { 

242 struct usb interface descriptor *interface; 

243 struct usb endpoint descriptor *endpoint; 

244 struct usb hub *hub; 

245 unsigned long flags; 

246 

247 interface = &dev—>actconfig->interface[i]. altsetting|0]; 
248 , 

249 /* Some hubs have a subclass of 1, which AFAICT according to the */ 
250 /* specs is not defined, but it works */ 

251 if ((interface—->bInterfaceSubClass != 0) && 

252 (interface->bInterfaceSubClass != 1)) 1 

253 err ("invalid subclass (%d) for USB hub device #%d”, 
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254 interface->bInterfaceSubClass，dev->devnum) ; 

255 return NULL; 

256 } i 

257 

258 /* Multiple endpoints? What kind of mutant ninja-hub is this? */ 

259 if (interface->bNumEndpoints != 1) { 

260 err ("invalid bNumEndpoints (%d) for USB hub device #%d”, 

261 interface->bNumEndpoints, dev~>devnum) ; 

262 return NULL; 

263 } 

264 

265 endpoint = &interface-»endpoint [0] ; 

266 

267 /* Output endpoint? Curiousier and curiousier.. */ 

268 if (!(endpoint-^bEndpointAddress & USB DIR IN)) 1 

269 err ("Device #%d is hub class, but has output endpoint?", 

270 dev-^devnum) ; 

271 return NULL; 

212 } 

273 

274 /* If it’s not an interrupt endpoint, we'd better punt! */ 

275 if ((endpoint->bmAttributes & USB_ENDPOINT_XFERTYPE_MASK) != 
USB ENDPOINT XFER INT) | 

216 err('Device #%d is hub class, but has endpoint other than interrupt?', 

277 dev—>devnum) ; 

278 return NULL; 

279 } 

280 

281 /* We found a hub */ 

282 info("USB hub found”) ; 

283 

284 hub = kmalloc (sizeof (#hub), GFP KERNEL); 

285 if (!hub) { 

286 err ("couldn t kmalloc hub struct”); 

287 return NULL; 

288 } 

289 

290 memset (hub, 0, sizeof (*hub)) ; 

291 

292 INIT LIST HEAD (&hub->event_ list); 

293 hub->dev = dev; 

294 

295 /* Record the new hub's existence */ 

296 spin lock irqsave(&hub event lock, flags); 

297 INIT LIST HEAD(&hub-^hub list); 

298 list add(&hub-^hub list, &hub list); 

299 spin unlock irgrestore(&hub event lock, flags); 

300 
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301 if (usb hub configure (hub, endpoint) >= 0) 

302 return hub; 

303 E 

304 err('hub configuration failed for device #%d”, dev~>devnum) ; 
305 i 
306 /* free hub, but first clean up its list. */ 
307 spin lock irqsave(&hub event lock, flags); 

308 

309 /* Delete it and then reset it */ 

310 list del(&hub-^event list); 

311 INIT LIST HEAD(&hub-^event list); 

312 list del(&hub-^hub list); 

313 INIT. LIST. HEAD (&hub-^hub. list); 

314 

315 spin unlock irqrestore(&hub event lock, flags); 
316 

317 kfree (hub) ; 

318 

319 return NULL; 

320 } 


参数 dev 指向 具体 设备 (在 这 里 古 根 集中 器 ) 的 usb device 数据 结构 ，i 表明 沙 有 前 处 理 的 接口 号 。 当 
设备 中 有 多 个 接口 时 ， 对 每 个 接口 都 会 调用 一 次 相应 的 probe PAT. BAL id 则 指向 一 个 用 于 比 对 、 认 
SHAY usb device id 数据 结构 ， 申 面 有 设备 驱动 异 块 所 适用 的 设备 类 型 、 制 造 厂商 、 产 品 编号 等 等 信息 ， 
由 于 具体 probe 溺 数 的 执行 实际 上 是 针对 接口 ( 即 逻 辑 设备 ) 的 ， 所 以 先 根据 接口 号 从 设备 的 当前 配置 中 
取得 指向 具体 接口 描述 信息 的 指针 interface. 在 调用 这 个 函数 之 前 ， 已 经 对 设备 进行 了 比 对 ， 根 据 其 设 
备 类 型 、 制 造 厂商 等 等 信息 初步 认定 是 个 USB 集中 器 ， 这 省 调用 hub_probe( ) 的 。 但 是 ， 这 里 还 要 再 
进一步 作 一 些 检验 。USB 集中 器 的 子 设备 类 型 号 应 该 是 0 或 1， 除 默认 的 控制 端点 以 外 应 该 只 有 一 个 
中 断 人 交互 输 入 端点 ，251~279 行 对 这 些 特征 加 以 检验 。 如 果 通 过 了 所 有 这 些 检验 ， 就 最 后 认定 了 这 是 
个 USB 集中 器 。 虽 然 usb_device 数据 结构 中 包含 了 自 标 设备 作为 一 般 USB 设备 所 共有 的 各 种 信息 ， 
作为 具体 的 USB 集中 器 设备 还 有 附加 的 、 反 映 此 种 设备 特性 的 信息 , 以 及 运行 所 需 的 -一些 字段 或 成 分 ， 
所 以 还 此 为 其 分 配 一 个 usb hub 数据 结构 。 这 种 数据 结构 定义 于 drivers/usb/hub.h: 


93 struct usb hub { 


94 struct usb device *dev; 
95 
96 struct urb *urb; /* Interrupt polling pipe */ 
97 
98 char buffer[(USB MAXCHILDREN + 1 + 7) / 8]; 
/* add 1 bit for hub status change */ 
99 /* and add 7 bits to round up to byte boundary */ 
100 int error; 
101 int nerrors; 
102 
103 struct list head hub list; 
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一 


104 

105 struct list head event list; 

106 

107 /* Number of ports on the hub */ 

108 int nports; 

109 

110 struct usb hub descriptor *descriptor; 
lH. d 


结构 中 有 个 位 图 buffer ]， 除 其 中 一 位 用 作 总 的 状态 改变 标志 位 以 外 ， 每 一 位 部 对 应 者 USB 集中 
器 二 的 一 个 端口 ， 反 映 着 该 端口 的 状态 ， 字 段 nports 则 说 明 端 口 的 数量 。 指 针 descriptor 指 四 一 个 
usb, hub, descriptor 数据 结构 ， 定 义 于 同一 文件 中 : 


77 /* Hub descriptor */ 
78 struct usb_hub_descriptor { 


79 | u8 bLength; 

80 __u& bDescriptorType; 

81 = u8 bNbrPorts; 

82 __ul6 wHubCharacteristics; 

83  .u8 bPwrOn2PwrGood; 

84 __u8 bHubContrCurrent; 

85 

86 /* DeviceRemovable and PortPwrCtrlMask want to be variable-length 

87 bitmaps that hold max 256 entries, but for now they re ignored */ 
88 | u8 bitmap[0]; 


89 } attribute | ((packed)) ; 


显然 ， 这 些 信息 只 能 来 自 设备 本 身 。 此 外 ， 对 USB 集中 器 的 初始 化 还 应 该 包括 为 道 过 周期 性 的 中 
断 传输 查询 其 状态 变化 作出 安排 。 所 以 ， 在 对 usb hub 结构 进行 一 些 初步 的 初始 化 以 后 ， 便 道 过 
usb_hub_configure( ) 进 一 步 完成 其 初始 化 。 其 代码 在 drivers/usb/hub.c 中 ， 


[usb init( ) > usb_hub_init( ) > usb_register( ) > usb scan devices( ) > usb check, support( ) 
> usb find interface driver( ) > hub. probe( ) > usb hub configure( )] 


125 static int usb hub configure (struct usb hub *hub, 
struct usb endpoint descriptor *endpoint) 


126 { 

127 struct usb device *dev = hub->dev 

128 struct usb hub status hubstatus; 

129 char portstr[USB MAXCHILDREN * 1]; 

130 unsigned int pipe; 

131 int i, maxp, ret; 

132 

133 hub-»descriptor = kmalloc(HUB DESCRTPTOR MAX SIZE, GIP KERNEL) ; 
134 if (!hub-^descriptor) { 

135 err("Unable to kmalloc %d bytes for hub descriptor”, 
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HUB_DESCRIPTOR MAX SIZE) ; 
return -1; 


} 


/* Request the entire hub descriptor. */ 
ret = usb get hub descriptor (dev, hub->descriptor, HUB DESCRIPTOR MAX SIZE); 
/* <hub->descriptor> is large enough for a hub with 127 ports: 
* the hub can/will return fewer bytes here. */ 
if (ret < 0) { 
err (“Unable to get hub descriptor (err = %d)”, ret); 
kfree (hub->descriptor) ; 
return -1; 


hub-»nports = dev-^maxchiid = hub—>descriptor->bNbrPorts;: 
info("*d port%s detected”, hub->nports, (hub->nports == 1) 9? "^ : "s^); 


if (hub-»descriptor-^wHubCharacteristics & HUB CHAR COMPOUND) 
dbg (“part of a compound device”): 

else 
dbg (“standalone hub”): 


switch (hub->descriptor->wHubCharacteristics & HUB CHAR LPSM) į 

case 0x00: 
dbg ("ganged power switching”); 
break; 

case 0x01: 
dbg( individual port power switching"); 
break; 

case 0x02: 

case 0x03: 
dbg ("unknown reserved power switching mode”); 
break; 


} 


switch (hub->descriptor—>wHubCharacteristics & HUB CHAR OCPM) | 
case 0x00: 
dbg( global over-current protection”); 
break; 
case 0x08: 
dbg ("individual port over-current protection”): 
break; 
case 0x10: 
case Ox[8: 
dbg( no over-current protection”): 
break; 
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201 
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dbg(“power on to power good time: %dms”, hub->descriptor->bPwrOn2PwrGood * 2); 
dbg (“hub controller current requirement: %dmA”, 
hub->descriptor—>bHubContrCurrent) ; 


for (i = 0; i < dev maxchild; i++) 
portstr[i] = 
hub-»descriptorObitmap[((i + D / 8] & (1 << ({i + 1) $8) ? 
"FP oe R; 
portstr(dev—>maxchild] = 0; 


dbg ("port removable status: %s”, portstr); 


ret = usb get hub status(dev, &hubstatus) ; 

if (ret < 0) { l 
err ("Unable to get hub status (err = = %d)”, ret); 
kfree (hub—>descriptor) ; 
return -1; 


} 
lel6 to cpus (&hubstatus. wHubStatus) ; 


dbg(^local power source is %s”, 
(hubstatus. wHubStatus & HUB STATUS LOCAL POWER) ? 
“lost (inactive)" : "good^); 


dbg("*sover-current condition exists”, 
(hubstatus. wHubStatus & HUB STATUS OVERCURRENT) ? ^" : “no ^); 


/* Start the interrupt endpoint */ 
pipe = usb rcvintpipe (dev, endpoint-^bEndpointAddress); 
maxp = usb maxpacket(dev, pipe, usb pipeout (pipe)) ; 


if (maxp > sizeof (hub->buffer) } 
maxp = sizeof (hub- buffer); 


H 


hub->urb = usb alloc urb(0); 

if (thub->urb) | 
err ("couldn t allocate interrupt urb”) ; 
kfree (hub->descriptor) ; 
return -l; 


} 


FILL INT URB(hub-^urb, dev, pipe, hub->buffer, maxp, hub irq, 
hub, endpoint->bIJnterval) ; 

ret = usb submit_urb(hub->urb) ; 

if (ret) { 
err (“usb submit urb failed (%d)”, ret); 
kfree (hub->descriptor) ; 
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221 return -1; 

228 } 

229 

230 /* Wake up khubd */ 
231 wake up(&khubd wait); 
232 

233 usb hub power on(hub); 
234 

235 return Q; 

236 | ] 


Ei 7E JJ usb. hub. descriptor 数据 结构 分 配 空 间 ， 再 通过 usb get hub descriptor( ) 从 集 '|' 器 读 入 所 需 
的 信息 ， 即 集中 器 描述 块 。 这 个 函数 的 代码 在 drivers/usb/hub.c 中 


[usb, init( ) > usb_hub_init( ) > usb_register( ) > usb_scan_devices( ) > usb, check, support( ) 
> usb find interface driver( ) > hub. probe( ) > usb, hub. configure( ) > usb. get hub, descriptor( )] 


4] static int usb get hub descriptor (struct usb device *dev, void *data, int size) 
42 | 

43 return usb control msg(dev, usb revetrlpipe (dev, 0), 

44 USB REQ GET DESCRIPTOR, USB DIR IN | USB RT HUB, 

45 USB DT HUB << 8, 0, data, size, HZ); 

46} 


可 见 ， 所 需 的 信息 是 通过 一 次 控制 传输 从 集中 器 读 入 的 。 读 入 了 集中 器 描述 块 以 后 。 就 知道 了 这 
个 集中 器 有 几 个 端口 , 也 知道 了 它 的 其 它 一 些 特 性 。 例如 , 一 个 集中 器 串 以 是 一 个 单纯 的 USB 集中 器 ， 
也 可 以 是 个 复合 设备 中 的 部 分 ; 集中 器 可 以 是 自 带 由 源 的 , 也 可 以 通过 USB 电缆 从 主机 吸取 电流 ; 
羔 站 上 可 以 带 有 过 电流 保护 ， 也 可 以 不 市 。 个 过 我 们 在 这 里 对 这 些 特性 不 感 兴 

接着 ， 髓 通过 usb_get_hub_status( ) 启 动 一 次 控制 传输 ， 进 一 步 从 集中 峰 读 入 状态 信息 
(drivers/usb/hub.c)， 以 获取 有 关 其 电源 供应 的 当前 状况 。 


[usb init( ) > usb_hub_init( ) > usb_register( ) > usb_scan_devices( ) > usb_check_support( ) 
> usb find interface driver( ) > hub. probe( ) > usb hub configure( ) > usb get hub status( )] 


66 static int usb get hub status (struct usb device *dev, void *data) 
67 | 

68 return usb control msg(dev, usb rcvctrlpipe(dev, 0), 

69 USB REQ GET STATUS, USB DIR IN | USB RT HUB, 0, O, 

70 data, sizeol(struct usb hub status), UZ): 

71 } 


当然 ， 我 们 对 电源 也 不 感 兴 趣 。 
面 是 对 中 断 父 五 的 安排 ， 这 才 是 关键 性 的 。 对 才 USB 集中 器 ， 要 为 其 安排 一 个 或 者 说 “调度 ” 
一 个 周期 性 的 中 断 传输 (每 信 中 断 传输 中 上 只 有， 个 交 苹 )， 使 USB 总 线 控制 器 能 周期 地 查询 其 状态 ， 让 
"UB PLEBS ET EVA AS EE 
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我 们 将 在 后 面 结 合 扫描 器 的 驱动 介绍 对 中 新 传输 的 调度 ， 这 里 先 作 “: 些 简短 的 说 明 。 

首先 要 通过 usb alloc urb( ) 分 配 一 个 “USB 传输 请 求 块 ”， 即 usb 数据 结构 。 再 通过 宏 操 作 
FILL_INT_URB( ) 设 置 好 这 个 数据 结构 , 设置 的 内 容 包括 对 方 的 设备 地 上 引 与 端点 号 , 用 米 接收 信息 的 组 
IPX. hub-»buffer, 指向 县 体 usb. hub 数据 结构 的 指针 hub， 以 及 当 接收 到 来 自 集 中 器 的 信息 以 后 需要 执 
行 的 “中 断 服务 程序 ”hub_irgq( )、 查 询 的 周期 等 等 。 最 后 通过 usb submit urb( ) 提 交 这 个 请 求 ， 就 是 椒 
据 urb 数据 结构 的 内 容 创 建 一 个 父 互 请 求 ， 妈 uhei_td 数据 结构 ， 并 根据 查询 周期 将 其 链 入 skeltd[ ] 中 
某 两 个 元 素 之 间 。 这 栏 ，USB 总 线 控 制 句 便 会 周期 性 地 执行 这 个 交 并 请 求 ， 对 日 标 集中 器 通过 中 断交 
FEITE M. 

至 此 ,通过 usb_register( OXIR Ait 48 MUS 5 UR CE A TT, 4 15833 CPU ES usb_hub_init( ) 
的 代码 中 。 

阅读 过 本 章 “PCI 总 线 ” : 节 的 读 少 可 能 出 经 注意 到 了 ，PCI 总 线 和 USB 总 线 的 必 举 过 程 有 明显 
的 不 同 。PCI 总 线 的 枚 举 过 程 是 对 总 线 LE eS, FRA ab AI. TST USB BÉ, 
则 至 今 只 看 到 了 根 集 中 器 的 “ 枚 举 ”， 却 未 见 有 进一步 对 连接 在 集中 器 上 的 设备 的 核 举 。 虽 然 USB 总 
线 的 结构 也 有 递归 性 (多 级 集中 器 )， 但 芭 不 见 有 递 则 的 操作 。 这 实际 上 反映 了 二 者 的 一 个 重要 的 区 别 。 
Mt TPCT 总 线 ， 虽然 在 一 些 特殊 的 系统 中 对 一 些 特殊 的 部 件 ( 击 要 特殊 的 硬件 结构 ) 也 有 “ 热 插 入 ”的 要 
K, 但 基本 的 假设 是 PCI 设备 仁 系 统 加 由 之 及 忠 忆 经 静态 地 连接 在 总 线 上 .而 对 USB 总 线 却 恰 好 相 上 友 ， 
基本 的 假设 是 “ 热 插 入 ”， 即 多 数 USB 设备 都 会 在 系统 加 电 以 后 动态 地 加入 或 离开 系统 。 在 最 为 一 般 
的 情况 卜 ， 系 统 初始 化 时 USB 总 线 上 除根 集 让 器 外 没有 任何 设备 ， 而 事先 有 设备 连 在 USB BAER 
HERP. 

PELA, RET ARSE PAS "Jed AAA Ab RE KRR” KES. USB 集中 器 的 驱 
RRA UCAS TS AREAS khubd, T JANE Pea. BA :个 USB 设备 插入 集中 
ast, HASTE P— IX) USB EP ACR Ac ME IR ERAS A eee. Mif USB 
主 控制 器 在 当前 框架 结束 时 会 向 CPU Ace TAR.) USB RRA AIRS, Ue AE 
该 框架 内 完成 的 交 芋 请 求 ， 从 而 urb 数据 结构 的 内 容 、 调 用 有 具体 设备 的 中 断 服务 程序 〈 以 后 读者 会 见 
fI) 。 对 于 集中 器 的 中 断交 五 ， 这 个 中 断 服务 程 订 是 hub. irq( )。 共 代码 化 drivers/usb/hub.c FP: 


80 static void hub irq(struct urb *urb) 


8l { 

82 struct usb hub *hub = (struct usb hub *)urb->context; 
83 unsigned long flags; 

84 

85 /* Cause a hub reset after 10 consecutive errors */ 
86 if (urb status) { 

87 if (urb-^status -- -ENOENT) 

88 return; 

89 

90 dbg (“nonzero status in irq %d”, urb->status) ; 
91 

92 if ((++hub->nerrors < 10) | hub->error) 

93 return; 

94 
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根据 urb 数据 结构 的 内 容 可 以 找到 目标 集中 器 的 usb, hub 结构 。 如 果 urb->status 40, ion PM 
， 并 且 集 中 器 的 状态 有 了 变化 (如 果 集 中 器 的 状态 无 变化 , 则 集中 器 返回 NAK, 此 时 USB 
控制 器 不 会 将 该 中 交互 描述 块 路 的 TD_CTRL_ACTIVE 位 清 0， 也 不 会 向 CPU 发 出 中 断 请 求 ， 风 后 )。 
只 要 khubd 已 经 在 运行 ， 就 把 日 标 集中 器 的 usb. hub 结构 通过 其 队列 头 event_list 挂 入 khubd 的 等 待 队 


交互 正常 完 


) 
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hub->error = urb->status; 


} 


hub->nerrors = 0; 


/* Something happened, let khubd figure it out */ 
if (waitqueue active(&khubd wait)) { 
/* Add the hub to the event queue */ 
spin lock irqsave(&hub event lock, flags); 
if (list empty (&hub— event list)) { 
list add(&hub-^event list, &hub event list); 
wake up(&khubd wait); 
} 


spin unlock irqrestore(&hub event lock, flags); 


Fij hub event list, JA Jn EE khubd. 


线程 khubd 是 在 usb. hub. init( )1(795 £738 kernel, thread( ) 创 建 的 , 其 执行 代码 usb. hub thread() 


在 drivers/usb/hub.c "F: 

742 static int Usb_hub_thread (void * hub) 

743 {f 

144 lock kernel(); 

145 

146 /* 

747 * This thread doesn’t need any user-level access, 
748 * so get rid of all our resources 

749 */ 

750 

751 daemonize( ); 

752 

753 /* Setup a nice name */ 

754 strepy(current->comm, “khubd”) ; 

755 

756 /* Send me a signal to get me die (for debugging) */ 
757 do { 

758 usb hub events( ); 

759 interruptible sleep on(&khubd wait); 
760 } while (!signal pending(current)) ; 

761 

762 dbg("usb hub thread exiting"); 
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up and exit(&khubd exited, 0); 


代码 中 的 do-while 循环 实际 上 是 个 无 限 循环 ， 只 要 不 向 这 个 线程 发 送信 号 ， 就 会 一 直 循环 下 去 。 


在 循环 体 中 ， 先 通过 usb_hub_events( ) 检 查 和 处 理 各 个 集中 器 (现在 还 只 有 根 集 中 器 ) 的 状态 变化 ， 然 后 
就 睡眠 〈 建 议 读者 思考 一 下 ， 在 循环 中 为 什么 处 理 在 先 而 睡眠 在 后 ) ， 直 到 被 唤醒 向 再 次 执行 
usb_hub_events( )。 这 个 函数 的 代码 在 drivers/usb/hub.c 中 : 


[usb hub thread( ) > usb_hub_events( )] 
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static void usb hub events (void) 


{ 


unsigned long flags; 

struct list head *tmp; 

struct usb device *dev; 

struct usb hub *hub; 

struct usb hub status hubsts; 
unsigned short hubstatus, hubchange; 
int i, ret: 


/* 
* We restart the list everytime to avoid a deadlock with 
* deleting hubs downstream from this one. This should be 
* safe since we delete the hub from the event list. 
* Not the most efficient, but avoids deadlocks. 
*/ 
while (1) { 
spin lock irqsave(&hub event lock, flags); 


if (list empty(&hub event list)) 
goto he unlock; 


/* Grab the next entry from the beginning of the list */ 
tmp = hub event list.next; 


hub = list entry(tmp, struct usb hub, event list); 
dev = hub-?dev; 


list del(tmp); 
INIT. LIST. HEAD (tmp) ; 


spin unlock irqrestore(&hub event lock, flags); 


if (hub->error) 1 
dbg ("resetting hub %d for error %d”, dev->devnum, hub-^error); 
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if (usb hub reset(hub)) { 
err ("error resetting hub %d - disconnecting”, dev~>devnum) ; 
usb_hub_disconnect (dev) ; 
continue; 


hub->nerrors = 0; 
hub->error = 0; 


for (i = 0; i < hub->nports; i++) { 
struct usb port. status portsts; 
unsigned short portstatus, portchange; 


ret = usb get port status(dev, i + 1, &portsts); 
if (ret < 0) { 
err (“get port status failed (err = %d)”, ret); 
continue; 


} 


portstatus = lel6 to cpu(portsts. wPortStatus) ; 
portchange = lel6_to_cpu(portsts. wPortChange) ; 


if (portchange & USB PORT STAT C CONNECTION) { 
dbg ("port %d connection change”, i + 1); 


usb hub port connect change(dev, i, &portsts); 

| else if (portchange & USB PORT STAT C ENABLE) { 
dbg(/port %d enable change, status %x”, i + 1, portstatus); 
usb clear port feature(dev, i + 1, USB PORT FEAT C ENABLE); 


/* 
* EM interference sometimes causes bad shielded USB devices to 
* be shutdown by the hub, this hack enables them again. 
* Works at least with mouse driver. 
*/ 
if (!(portstatus & USB PORT STAT ENABLE) && 
(portstatus & USB PORT STAT CONNECTION) && 
(dev-?childrenlil)) | 





err( 
"already running port %i disabled by hub (EMI?), re-enabling...”, 
i + 1); 
usb hub port connect change(dev, i, &portsts) ; 


j 


if (portchange & USB PORT STAT C SUSPEND) { 
dbg(/port %d suspend change”, i + 1); 
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usb clear port feature(dev, i + 1, USB PORT FEAT C SUSPEND); 
} 


if (portchange & USB. PORT STAT C OVERCURRENT) { 
err (“port %d over-current change”, i + 1); 
usb clear port feature(dev, i + 1, 
USB PORT FEAT C OVER CURRENT) ; 





usb hub. power on (hub); 


} 


if (portchange & USB PORT STAT C RESET) | 
dbg(/port %d reset change”, i + 1); 
usb clear port feature(dev, i * 1, USB PORT FEAT C RESET); 
} 
) /* end for i */ 


/* deal with hub status changes */ 
if (usb get hub status(dev, &hubsts) < 0) 
err('get hub status failed”); 
else { 
hubstatus - lel6 to cpup(&hubsts. wHubStatus) ; 
hubchange = lel6 to cpup(&hubsts. wHubChange) ; 
if (hubchange & HUB CHANGE LOCAL POWER) | 
dbg ("hub power change”); 
usb clear hub feature (dev, C HUB LOCAL POWER); 
} 
if (hubchange & HUB CHANGE OVERCURRENT) { 
dbg (“hub overcurrent change ^); 
wait ms(500);  /* Cool down */ 
usb clear hub feature(dev, C HUB OVER CURRENT); 
usb hub power on(hub); 
j 
} 
} /* end while (1) */ 


he_unlock: 
spin unlock irqrestore(&hub event lock, flags); 


} 


通过 一 个 while 循环 , khubd 依次 摘 下 并 处 理 挂 在 hub. event list 中 的 等 一 个 usb. hub 数据 结构 。 如 
果 hub->error JE 0， 就 表示 已 经 连续 出 错 10 次 以 上 ， 所 以 通过 usb_hub_reset( )In] AAIR "P 3&8 22 1 — 
reset 命令 ， 让 它 “ 重 新 做 人 ”。 如 上 果 连 这 也 失败 ， 那 就 要 通过 usb_hub_disconnect( ) 断 开 其 连接 。 

然后 , 通过 个 for 循环 检 贷 和 处 理 集中 器 的 每 个 端 忆 因为 至 此 只 知道 集中 器 的 状态 发 生 了 变化 ， 
但 并 不 知道 基体 的 情况 ， 那 槛 通过 控制 传输 进一步 查询 所以， 对 于 集中 器 的 等 个 端口 ， 遂 过 
usb get port status( ) 启 动 一 次 控制 父 互 读 入 其 状态 信息 。 其 代码 见 drivers/usb/hub.c: 
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[usb hub, thread( ) > usb hub events( ) > usb get, port. status( )] 


T3 static int usb get port status (struct usb device *dev, int port, void *data) 
74 { 


15 return usb control msg(dev, usb rcvctrlpipe(dev, 0), 

16 USB REQ GET STATUS, USB DIR IN | USB RT PORT, 0, port, 
77 data, sizeof(struct usb hub status), HZ); 

78 } 


如 果 具 体 端 口 的 状态 信和 总 表明 其 设备 连接 状态 发 生 了 变化 ， 那 就 要 作出 进 “和 步 的 处 理 和 反应 ， 这 
是 通过 usb_hub_port_connect_change( ) 完 成 的 。 这 个 函数 的 代码 在 drivers/usb/hub.c 中 : 


[usb hub thread( ) > usb_hub_events( ) > usb, hub port. connect change( )] 


519 static void usb hub port connect change (struct usb device *hub, int port, 





520 struct usb port status *portsts) 

521 { 

522 struct usb device *dev; 

523 unsigned short portstatus, portchange; 

524 unsigned int delay - HUB SHORT RESET TIME; 

525 int 1; 

526 char *portstr, *tempstr; 

527 

528 portstatus = lel6 to cpu(portsts-^wPortStatus); 

529 portchange = lel6 to cpu(portsts-^wPortChange) ; 

530 dbg( port %d, portstatus %x, change %x, %s”, port + 1, portstatus, 

531 portchange, portstatus & (1 << USB PORT FEAT LOWSPEED) ? 
^1. 5 Mb/s” : “12 Mb/s”); 

532 

533 /* Clear the connection change status */ 

534 usb clear port feature(hub, port * 1, USB PORT FEAT C CONNECTION); 

535 

536 /* Disconnect any existing devices under this port */ 

537 if ¢(hub->children[port]) 

538 usb disconnect (&hub-^children[port]):; 

539 

540 /* Return now if nothing is connected */ 

541 if (!(portstatus & USB PORT STAT CONNECTION) { 

542 if (portstatus & USB PORT STAT ENABLE) 

543 usb hub port disable(hub, port); 

544 

545 return; 

546 } 

547 

548 down(&usb addressÜ sem); 

549 

550 tempstr = kmalloc(1024, GFP KERNEL); 


478 . 


551 
552 
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portstr = kmalloc (1024, GFP_KERNEL) ; 


for (i = 0; i < HUB PROBE TRIES; i++) { 


struct usb device *pdev, *cdev; 


/* Allocate a new device struct */ 

dev = usb alloc dev (hub, hub->bus) ; 

if (!dev) ( 
err (“couldn t allocate usb device”) ; 
break; 


| 
hub->children[port] = dev; 


/* Reset the device */ 

if (usb hub port reset(hub, port, dev, delay)) { 
usb free dev (dev); 
break; 


} 


/* Find a new device ID for it */ 
usb connect (dev) ; 


/* Create a readable topology string */ 
cdev = dev; 
pdev = dev->parent; 
if (portstr && tempstr) { 
portstr[0] = 0; 
while (pdev) { 
int port; 


for (port = 0; port < pdev—maxchild; port++) 
if (pdev—->children[port] == cdev) 
break; 


strcpy(tempstr, portstr); 
if (!strlen(tempstr)) 
sprintf(portstr, “%d”, port + 1); 
else 
sprintf (portstr, “%d/%s”, port + 1, tempstr); 


pdev; 
pdev—>parent; 


cdev 
pdev 


} 
info("USB new device connect on bus%d/%s, assigned device number %d ， 
dev->bus—>busnum, portstr, dev-^devnum); 
} else 
info("USB new device connect on bus%d, assigned device number %d ， 
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599 dev-^bus-^busnum, dev->devnum) : 
600 

601 /* Run it through the hoops (find a driver, etc) */ 
602 if (lusb new device (dev) ) 

603 goto done; 

604 

605 /* Free the configuration if there was an error */ 
606 usb free dev (dev) ; 

607 

608 /* Switch to a long reset time */ 

609 delay = HUB LONG RESET TIME; 

610 } 

611 

612 hub: >children[port] = NULL; 

613 usb hub port disable(hub, port); 

614 done: 

615 up(&usb addressO sem); 

616 if (portstr) 

617 kfree (portstr) ; 

618 if (tempstr) 

619 kfree (tempstr) ; 

620 } 


从 设备 读 入 的 信息 中 包括 两 个 16 位 状态 标志 字 ， 一 个 表示 端口 当前 的 状态 ，- 个 表示 哪些 状态 发 
生 了 变化 。 在 drivers/usb/hub.h 中 定义 了 一 些 有 关 的 常数 ; 


40 /* wPortStatus bits */ 
41 #define USB PORT STAT CONNECTION 0x0001 


42 #define USB PORT STAT ENABLE 0x0002 
43 #define USB PORT STAT SUSPEND 0x0004 
44 #define USB PORT STAT OVERCURRENT — 0x0008 
45 &define USB PORT STAT RESET 0x0010 
46 &define USB PORT STAT POWER 0x0100 
4T #define USB PORT STAT LOW SPEED 0x0200 
48 


49 /* wPortChange bits */ 

50 #define USB PORT STAT C CONNECTION 0x0001 
51 &define USB PORT STAT C ENABLE 0x0002 
52 #define USB PORT STAT C SUSPEND 0x0004 
53 Adefine USB PORT STAT C OVERCURRENT 0x0008 
54 #define USB PORT STAT C RESET 0x0010 


对 丁 连 接 状 态 发 生 了 变化 的 端口 ， 先 通过 usb_clear_port_feature( ) 启 动 一 次 对 目标 集中 器 的 控制 伟 
输 ， 清 除 该 端口 的 状态 信息 (drivers/usb/usb.c)。 


[usb_hub_thread( ) > usb_hub_events( ) > usb_hub_port_connect_change( ) > usb clear port feature { )] 
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54 static int usb clear port feature (struct usb device *dev, int port, int feature) 
55 { 


56 return usb control msg(dev，usb_sndctrlpipe (dev, 0), 
57 USB REQ CLEAR FEATURE, USB RT PORT, feature, port, NULL, 0, HZ); 
58 } 


然后 ， 如 果 usb device 数据 结构 中 的 children[port]4E 0, FETA FA usb, disconnect( Hi F Zn HE 
的 连接 ， 这 个 函数 的 代码 在 drivers/usb/usb.c ++: 


[usb_hub_thread( ) > usb_hub_events( ) > usb_hub_port_connect_change( ) > usb_disconnect( )] 


1619 /* 

1620 * Something got disconnected. Get rid of it, and all of its children. 
1621 */ 

1622 void usb disconnect(struct usb device **pdev) 

1623 { 

1624 struct usb device * dev = *pdev; 

1625 int i; 

1626 

1627 if (!dev) 

1628 return; 

1629 

1630 *pdev = NULL; 

1631 

1632 info("USB disconnect on device %d”, dev-^devnum); 

1633 

1634 if (dev->actconfig) { 

1635 for G = 0; i < dev-^»actconfig-^bNumInterfaces; i++) { 
1636 struct usb interface *interface - &dev—actconfig-^interface[i]; 
1637 struct usb driver *driver = interface-^driver; 

1638 if (driver) ( 

1639 down (&driver—>serialize) : 

1640 driver->disconnect (dev, interface— private data); 
1641 up (&driver-^serialize): 

1642 usb driver release interface(driver, interface); 
1643 } 

1644 } 

1645 j 

1646 

1647 /* Free up all the children.. */ 

1648 for (i = 0; i USB MAXCHILDREN; itt) { 

1649 struct usb device **child = dev->children + i; 

1650 if (*child) 

1651 usb disconnect (child); 

1652 } 

1653 

1654 /* Let policy agent unload modules etc */ 
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1655 call policy (“remove”, dev); 

1656 

1657 /* Free the device number and remove the /proc/bus/usb entry */ 
1658 if (dev->devnum > 0) 1 

1659 clear bit (dev—>devnum, &dev—>bus—>devmap. devicemap) ; 
1660 usbdevfs remove device (dev); 

166] } 

1662 

1663 /* Free up the device itself */ 

1664 usb free dev (dev) ; 

1665  ] 


我 们 把 这 个 函数 留 给 读者 自己 阅读 。 

初 看 之 下 这 似乎 有 点 奇怪 ， 我 们 并 没有 检查 这 个 端口 连接 状态 的 变化 到 底 是 朝 什 么 方向 的 变化 ， 
怎么 能 赁 hub->children[port] 非 0 就 决定 断 开 它 的 连接 呢 (537 行 )? 其 实 这 正 是 这 段 代 码 的 精炼 之 处 .如 
果 连 接 状态 的 变化 是 从 无 到 有 ， 那 么 hub->children[port] 应 该 是 0， 所 以 实际 上 不 会 调用 这 个 函数 。 万 
… hub->children[port] 非 0， 就 说 明 这 是 “漏网 之 鱼 ”， 所 以 应 该 将 其 清除 。 反 过 来 ， 如 果 连 接 状 态 的 
变化 是 从 有 到 无 ， 那 么 这 就 更 是 我 们 所 需要 做 的 。 

进一步 ， 如 果 端 口 状 态 表 明 无 连接 C541 行 ) ， 而 端口 又 处 于 开通 状态 (542 行 )， 那 就 要 通过 
usb hub port disable( ) 启 动 男 一 次 控制 传输 ， 将 日 标 端口 封闭 ， 然 后 就 返回 了 (545 行 ) 。 

如 果 CPU 执行 到 了 548 行 ， 那 就 说 明 所 发 后 的 变化 是 从 大 到 有 ， 人 也 就 是 在 个 USB 设备 插入 了 这 
个 端口 。 这 以 后 的 操作 ， 如 usb_alloc_dev( )、usb_hub_port_reset( )、usb_connect( ) 和 usb_new_device( ) 
等 ， 就 都 是 前 面 已 经 看 到 过 的 了 ， 这 就 是 对 新 设备 的 枚 举 过 程 。 注 意 这 里 对 usb_new_device( ) 并 非 递 
归 调 用 。 如 果 新 的 设备 又 是 个 集中 器 , 那么 usb_new_device( ) 会 通过 usb_find_drivers( ) 找 到 集中 器 的 驱 
动 模块 ， 并 执行 其 probe 函数 。 而 集中 幽 驱动 模块 的 probe 函数 又 会 为 新 的 集中 器 调 虔 好 中 断交 互 ， 
而 khubd 又 会 对 新 的 集中 器 执行 usb_hub_events( )。 如 果 个 是 集中 器 呢 ， 屠 就 此 看 具体 设备 的 驱动 模块 
是 奋 已 经 安装 。 如 呆 该 设备 的 驱动 模块 已 经 安装 ， HA usb new. device( ) 通 过 usb_find_drivers( ) 同 样 会 
找到 其 驱动 模块 ， 并 执行 其 probe 函数 。 反 之 ， 如 果 该 设备 的 驱动 模块 尚未 安装 ， 那 就 要 到 安装 其 驱 
动 模块 时 再 来 认领 并 执行 其 probe 函数 。 下 面 我 们 将 结合 扫描 器 的 驱动 说 明 这 个 过 程 。 

回 到 usb_hub_events( ) 的 代码 中 , 对 每 个 端 记 还 要 检查 和 处 理 其 他 一 些 状态 变化 并 作出 处 理 。 最 后 ， 
还 要 检查 整个 集中 器 的 电源 状态 并 作出 反应 (720 一 735 行 })。 不 过 ， 那 些 就 不 是 我 们 在 这 里 所 关心 的 了 ， 
有 兴趣 或 需要 的 读者 可 自行 阅读 。 


8.9.3 USB 设备 的 初始 化 


我 们 以 扫描 器 为 实例 来 说 明 一 般 USB 设备 的 初始 化 过 程 。 

首先 ， 每 种 USB 设备 部 要 有 个 usb_driver 数据 结构 ， 这 是 对 USB 设备 的 最 高 层次 上 的 抽象 。 以 我 
们 在 前 :小节 中 看 到 USB 集中 器 为 例 ， 其 usb_driver 数据 结构 是 hub_driver。 这 种 数据 结构 的 定义 在 
include/linux/usb.h P: 
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384 struct usb driver { 


385 const char *name; 

386 

387 void *(*probe) ( 

388 struct usb device *dev, /* the device */ 

389 unsigned intf, /* what interface */ 

390 const struct usb device id *id /* from id table */ 
391 )u 

392 void (*disconnect) (struct usb device *, void *); 

393 

394 struct list head driver list; 

395 

396 struct file operations *fops; 

397 int minor; 

398 

399 struct semaphore serialize; 

400 

401 /* ioctl — userspace apps can talk to drivers through usbdevfs */ 
402 int (Gkioctl) (struct usb device *dev, unsigned int code, void *buf); 
403 

404 /* support for “new-style” USB hotplugging 

405 * binding policy can be driven from user mode too 

406 */ 

407 const struct usb device id *id table; 

408 

409 /* suspend before the bus suspends; 

410 * disconnect or resume when the bus resumes */ 

411 // void (suspend) (struct usb device *dev); 

412 // void (kresume) (struct usb device *dev); 

413 }; 


扫描 器 的 usb. driver 结构 是 scanner_driver， 定 义 于 drivers/usb/scanner.c: 


953 static struct 
954 usb driver scanner_driver = | 


955 name: "usbscanner^, 

956 probe: probe scanner, 

957 disconnect: disconnect_scanner, 

958 fops: &usb scanner, fops, 

959 minor: SCN, BASE MNR, 

960 id table: NULL, /* This would be scanner device ids, but we 
961 need to check every USB device, in case 

962 we match a user defined vendor/product ID. */ 
963 ë}; 


结构 中 的 成 分 probe 和 disconnect 是 两 个 函数 指针 ， 分 别 指向 probe scanner( ) 3H 
disconnect scanner( )。 顾 名 思 义 ， 前 者 实际 上 用 于 扫描 器 的 初始 化 ， 后 者 则 用 于 断 开 与 打 描 器 的 连接 。 
- 483 . 


Linux 内 核 源 代码 情景 分 析 (下 册 ) 
指针 fops 则 指向 扫描 器 设备 的 fle_operations 数据 结构 usb_scanner_fops, 也 定义 于 drivers/usb/scanner.c: 


942 static struct 


943 file operations usb scanner fops = { 
944 read: read scanner, 

945 write: write scanner, 

946 Hifdef SCN TOCTL 

947 ioctl: ioctl scanner, 

948 Bendif /* SCN IOCTL */ 

949 open: open scanner, 

950 releasc: close scanner, 

951 Hh 


VE), scanner driver 中 还 有 个 字段 minor， 这 是 其 体 扫描 器 的 次 设备 号 ， 其 初始 值 固 定 为 
SCN_BASE_MNR。 这 个 常数 定义 于 drivers/usb/scanner.h: 


84 #define SCN MAX MNR 16 /* We re allocated 16 minors */ ! 
85  #define SCN BASE MNR 48 /* USB Scanners start at minor 48 */ | 


束 是 说 ， 扫 描 右 的 次 设备 号 从 48 开始 ， 系 统 中 最 多 可 以 有 16 6131528. | 
像 其 他 设备 样 ， 作 为 USB 设备 的 扫描 器 也 需要 先 向 系统 登记 ， 这 就 起 扫描 器 豫 动 模块 初始 化 过 | 
程 要 先 成 的 操作 。drivers/usb/scanner.c 中 定义 了 扫描 器 的 初始 化 函数 usb. scanner. init( ). 


971 int __init 

972 usb_scanner_init (void) 

973 | 

974 if (usb register(&scanner driver) < 0) 
975 return -1; 

976 

971 info("USB Scanner support registered. ^); 
978 return 0; 

979 . 

980 

981 module init(usb scanner init); 


PKT. usb register( ) 的 代码 在 drivers/usb/usb.c F: 


[usb_scanner_init( ) > usb_register( )] 


85 int usb_register (struct usb driver *new driver) 

86 { 

87 if (new driver fops != NULL) { 

88 if (usb minors[new driver-^minor/16]) { 

89 crr( error registering %s driver”, new driver-»name): 
90 return -EINVAL:; 

9l } 
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92 usb minors[new driver->minor/16] - new driver; 
93 ] 
94 
95 info(’registered new driver %s”, new driver-^name); 
96 
97 init MUTEX(&new driver-»serialize); 
98 
99 /* Add it to the list of known drivers */ 
100 list add tail(&new driver-^driver list, &usb driver list); 
101 
102 usb scan devices( ); 
103 
104 return 0; 
105 } 


内 核 中 为 USB 设备 设立 了 一 个 usb_driver 结构 指针 数组 usb_minors[ ]， 其 大 小 为 16， 每 个 具体 
usb driver 结构 的 次 设备 号 除 以 16 便 决定 了 它 在 数组 中 的 位 置 。 每 登记 一 个 具体 的 usb diver 结构 以 
后 ， 数 组 中 相应 的 指针 就 指 站 了 这 个 数据 结构 。 由 此 可 见 ，USB 设备 的 次 设备 号 实际 上 分 成 了 两 截 ， 
其 高 4 位 起 着 类 似 于 主 设 备 号 的 作用 ， 而 其 低 4 位 则 是 真正 的 “次 设备 号 ”。 这 样 ， 系 统 中 可 以 同时 
存在 16 种 不 同 的 USB 设备 ， 而 每 种 设备 (如 扫描 器 ) 最 多 可 以 有 16 台 。 这 当然 只 是 权宜 之 计 ， 将 来 随 
着 devfs 的 采用 应 该 会 有 更 好 的 解决 。 

为 了 保证 应 用 进程 对 USB id SRÁEIS] HLJETE, usb driver 数据 结构 中 有 个 内 核 信 号 量 serialize， 代 
码 中 对 其 进行 了 初始 化 。 

内 核 中 有 两 个 USB 层次 上 的 队列 。 -个 是 usb bus 结构 的 队列 usb_bus_list， 男 一 个 是 usb driver 
结构 的 队列 usb_driver_list。 所 有 USB 设备 驱动 模块 的 usb, driver 结构 者 链接 在 这 个 队列 中 ， 新 豫 动 横 
ERA) usb driver 结构 就 挂 在 usb driver list 的 尾部 。 

然后 ， 通 过 usb_scan_devices( ) 扫 描 所 有 USB 总 线 上 的 所 有 设备 ， 让 入 个 USB 设备 驱动 模块 部 试 
着 来 “认领 ”与 其 对 品 的 设备 。 就 扫 j 描 器 的 驱动 模块 而 言 ， 就 起 要 计 它 认领 已 经 枚 举 的 扫描 啥 设 备 。 
函数 usb_scan_devices( ) 的 代码 在 drivers/usb/usb.c F: 


[usb scanner. init( ) > usb_register( ) > usb_scan_devices( )] 


107 /** 

108 * usb scan devices - scans all unclaimed USB interfaces 

109 * 

110 * Goes through all unclaimed USB interfaces, and offers them to all 
111 * registered USB drivers through the ’ probe’ function. 

112 * This will automatically be called after usb register is called. 
113 * lt is called by some of the USB subsystems after one of their subdrivers 
114 * are registered. 

115 */ 

116 ^ void usb scan devices (void) 

117 { 

118 struct list head *tmp; 
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119 

120 tmp = usb bus list. next; 

121 | while (tmp != &usb bus list) { 

122 struct usb_bus *bus = list_entry(tmp, struct usb_bus, bus_list); 
123 

124 tmp = tmp-»next; 

125 usb check support (bus~>root_hub) ; 

126 } 

127 } 


这 个 冰 数 扫描 队列 usb, bus. list 中 的 每 个 usb bus 数据 结构 ， 也 就 是 系统 中 的 每 -条 USB BR, 
通过 一 个 函数 usb_check_support( ) 检 查 该 总 线 上 已 经 枚 举 的 设备 。 其 代 但 在 drivers/usb/usb.c F: 


(usb. scanner. init( ) > usb_register( ) > usb_scan_devices( ) > usb_check_support( )] 


434 /* 

435 * This function is for doing a depth-first search for devices which 
436 * have support, for dynamic loading of driver modules. 
437 */ 

438 static void usb check support (struct usb_device *dev) 
439 { 

440 int i; 

441 

442 if (dev) { 

443 err (“null device being checked!!!^); 

444 return; 

445 } 

446 

447 for (i20; i<USB MAXCHILDREN; i++) 

448 if (dev-^childrenii]) 

449 usb check support (dev->children[i]) ; 

450 

451 if (!dev->actconfig) 

452 return; 

453 

454 /* now we check this device */ 

455 if (dev->devnum > 0) 

456 for (i = 0; i < dev actconfig-^bNumInterfaces; i++) 
451 usb find interface driver(dev, i); 

458 |] 


每 条 USB 总 线 的 “ 根 ” 是 个 USB 集中 器 ， 那 就 是 根 集中 器 。 主 机 的 USB 控制 器 ARAB SARE 

中 器 集成 在 :起 。 根 集中 器 也 是 由 usb device 数据 结构 代表 的 ， 在 USB 总 线 初始 化 时 建立 起 它 的 数据 

结构 。 每 个 USB RY AA LRA USB 设备 ， 其 数量 取决 于 具体 的 集中 器 ， 但 是 最 多 不 超过 

USB_MAXCHILDREN, 目前 这 个 常数 定义 为 16。 连 接 在 USB 集中 器 上 的 USB 设备 本 身 又 可 以 是 USB 

集中 器 ， 所 以 代码 中 对 下 接 的 集中 器 递归 调用 usb_check_support( )， 进 行 深度 优先 的 搜索 ， 一 直到 不 
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青 是 集中 器 ， 或 者 尚未 插 上 设备 的 集中 伐 时 才 回 头 。 

(ns ^M USB 设备 已 经 分 配 了 地 址 并 已 成 功 枚 举 ， 也 没有 被 “除名 ” 其 usb device 结构 中 的 了 
段 devnum 就 是 一 个 正 数 ， 此 时 结构 中 的 指针 actconfig 指向 一 个 usb_config_descriptor 数据 结构 。 我 们 
已 经 在 前 儿 个 小 节 中 看 到 这 种 数据 结构 的 定义 。 

这 个 结构 中 的 字段 bNumInterfaces 表示 相应 的 USB 设备 中 有 着 几 个 逻辑 设备 , 从 而 有 几 个 "接口 ”。 
指针 interface 指向 一 个 usb interface 数据 结构 数组 ， 其 定义 也 已 在 前 几 个 小 节 中 看 到 过 ， 数 组 的 大 小 
则 取决 于 bNumInterfaces. 

每 一 个 接口 可 以 包含 若干 “端点 ”(endpoinb， 对 于 主机 来 说 ， 每 个 端点 就 是 一 个 通信 的 对 象 。 不 
管 是 什么 样 的 USB 设备， 至 少 要 有 :个 公用 的 端点 用 于 控制 以 及 枚 举 的 日 的 ， 这 个 端点 的 “请 总 号” 
固定 为 0。 除 此 之 外 , 每 一 个 接口 还 可 以 有 附加 的 、 专 有 的 端点 。 端 点 号 0 所 代表 的 通信 对 象 是 双 问 的 ， 
既 可 以 收 也 可 以 发 ， 而 其 他 端点 号 所 代表 的 通信 对 象 则 都 是 单 向 的 。 这 个 数据 结构 中 的 字段 
bNumEndpoints 说 明了 本 接口 中 有 儿 个 端点 ， 而 指针 endpoint 则 指向 .个 usb endpoint. descriptor 结构 
数组 ， 每 个 usb_endpoint_descriptor 都 代表 着 Mia. Ha Mala NT. 

从 代表 着 具体 USB 总 线 的 usb. bus 结构 到 代表 着 具体 设备 (包括 集中 器 ) 的 usb device 结构 ， 再 到 
usb, config descriptor 结构 ， 最 后 是 usb. interface 结构 和 usb_endpoint_descriptor 结构 ， 正 好 反映 了 USB 
的 各 个 结构 层次 。 这 些 数 据 结构 本 身 以 及 互相 间 的 联系 ， 都 是 在 USB 总 线 初始 化 时 ,或 者 后 来 当 USB 
总 线 上 的 设备 连接 有 变化 时 的 枚 举 阶段 建立 的 。 枚 举 阶段 所 装 取 的 这 些 信息 反映 了 当前 USB 总 线 上 各 
个 设备 (端点 ) 的 客观 存在 ， 但 起 尚未 与 具体 的 设备 驱动 程序 挂 上 钓 。 所 以 ， 在 具体 设备 (类 型 ) 的 初始 化 
中 要 在 这 些 数据 结构 中 找到 对 口 的 数据 结构 并 加 以 “认领 ”(claim)。 

函数 usb_find_interface_driver( ) 逐 个 地 检查 数组 中 的 每 个 usb. interface 数据 结构 ， 看 看 相应 远 辑 设 
备 的 类 型 是 否 相符 ， 如 果 相 符 就 加 以 初始 化 。 其 代码 在 drivers/usb/usb.c 中 : 





[usb. scanner. init( ) > usb register( ) > usb_scan_devices( ) usb check support( ) 
> usb. find. interface. driver( )] 


623 /* 

624 * This entrypoint gets called for each new device. 

625 * 

626 * We now walk the list of registered USB drivers, 

621 * looking for one that will accept this interface. 

628 * 

629 * "New Style” drivers use a table describing the devices and interfaces 
630 * they handle. Those tables are available to user mode tools deciding 
631 * whether to load driver modules for a new device. 

632 * 

633 * The probe return value is changed to be a private pointer. This way 
634 * the drivers don' t have to dig around in our structures to set the 
635 * private pointer if they only need one interface. 

636 * 

637 * Returns: 0 if a driver accepted the interface, -1 otherwise 

638 */ 


639 static int usb find interface driver (struct usb device *dev, unsigned ifnum) 
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struct list head *tmp; 

struct usb interface *interfaco; 
void *private; 

const struct usb device id *id; 
struct usb driver *driver; 

int i; 


if ((!dev) || (ifnum >= dev->actconfig->bNumlnterfaces)) { 
err ("bad find interface driver params”) ; 
return -l; 


interface = dev->actconfig >interface + ifnum; 


if (usb interface claimed(interface)) 
return -1; 


private = NULL; 
for (tmp = usb driver list.next; tmp != &usb driver list;) { 


driver - list entry(tmp, struct usb driver, driver list); 
tmp = tmp->next: 


down (&driver-^serialize); 
id = driver-^id table; 
/* new style driver? */ 
if (id) 4 
for (i = 0; i < interface—>num altsetting; i++) { 
interface-^act altsetting = i; 
id = usb match id(dev, interface, id); 
if (id) { 
private = driver probe (dev, ifnum, id); 
if (private != NULL) 
break; 


} 
/* if driver not bound, leave defaults unchanged */ 
if (private == NULL) 
interface-^act altsetting = 0; 
} 
else /* “old style” driver */ 
private = driver—>probe(dev, ifnum, NULL); 


up (&driver-^serialize); 

if (private) { 
usb driver claim interface(driver, interface, private); 
return 0; 
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688 j 

689 j 

690 

691 return -1; 
6022  ] 


这 里 的 参数 dev 指向 一 个 USB 设备 的 usb device 数据 结构 ， 以 接口 号 为 下 标 ， 就 可 以 在 其 数组 
interface[ ] 中 找到 具体 接口 ， 即 逻辑 设备 的 usb_interface 结构 。 如 果 这 个 结构 中 的 指针 driver 已 经 指向 
一 个 usb driver 数据 结构 ， 则 该 接口 已 被 认领 。 否 则 ， 就 在 usb driver list 队列 中 扫描 已 经 登记 的 
usb, driver 数据 结构 ， 逐 个 地 通过 usb_match_id( ) 将 其 id 表 跟 设备 上 的 每 个 接口 比 对 。 这 个 函数 的 代码 
在 drivers/usb/usb.c H*: 


[usb scanner init( ) > usb register( ) > usb scan devices( ) > usb check support( ) 
» usb find interface driver( ) » usb match, id( )] 


505 /* usb match id searches an array of usb device id's and returns 
506 the first one that matches the device and interface. 

507 

508 Parameters: 

509 "id" is an array of usb device id's is terminated by an entry 
510 containing all zeroes. 

511 

512 "dev" and "interface" are the device and interface for which 
513 a match is sought. 

514 

515 If no match is found or if the “id” pointer is NULL, then 

516 usb match id returns NULL. 

517 

518 

519 What constitutes a match: 

520 

521 À zero in any element of a usb device id entry is a wildcard 
522 (i.e., that field always matches). For there to be a match, 
523 *every* nonzero element of the usb device id must match the 
524 provided device and interface in. The comparison is for equality, 
525 except for one pair of fields: usb match_id. bedDevice_{lo, hi} define 
526 an inclusive range that dev~>descriptor. bcdDevice must be in. 
521 

528 If interface->altsettings does not exist (i.e., there are no 
529 interfaces defined), then bInterface Class, SubClass, Protocol} 
530 only match if they are all zeroes. 

531 

532 

533 What constitutes a good "usb device id? 

534 

535 The match algorithm is very simple, so that intolligence in 
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536 
337 
538 
539 
540 
541 
542 
043 
044 
045 
546 
547 
548 
549 
550 
551 
552 
003 
954 
555 
506 
557 
558 
950 
560 
561 
562 
563 
564 
565 
566 
567 
968 
569 
570 
971 
572 
of3 
574 
915 
576 
977 
578 
579 
580 
581 
582 
083 


*/ 
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driver selection must come from smart driver id records. 
Unless you have good reasons to use another selection policy, 
provide match elements only in related groups: 


* device specifiers (vendor and product IDs; and maybe 
a revision range for that product); 

* generic device specs (class/subclass/protocol); 

* interface specs (class/subclass/protocol). 


Within those groups, work from least specific to most specific. 
For example, don't give a product version range without vendor 
and product IDs. 


"driver info" is not considered by the kernel matching algorithm, 
but you can create a wildcard ^matches anything" usb device id 
as your driver's "modules. usbmap” entry if you provide only an 
id with a nonzero "driver info” field. 


const struct usb device id * 
usb_match_id(struct usb device *dev, struct usb interface *interface, 


{ 
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const struct usb device id *id) 
struct usb interface descriptor *intf - 0; 


/* proc connectinfo in devio.c may call us with id == NULL. */ 
if (id == NULL) 
return NULL; 


/* lt is important to check that id-»driver info is nonzero, 
since an entry that is all zeroes except for a nonzero 
id->driver info is the way to create an entry that 
indicates that the driver want to examine every 
device and interface. */ 

for (; id->idVendor || id-»bDeviceClass || id-^bInterfaceClass || 

id-^driver info; jd++) 1 


if ((id-^match flags & USB DEVICE ID MATCH VENDOR) && 
id->idVendor != dev-?descriptor. idVendor) 
continue; 


if ((id->match flags & USB DEVICE ID MATCH PRODUCT) && 
id->idProduct != dev—>descriptor. idProduct) 
continue; 


/* No need to test id->bcedDevice lo != 0, since 0 is never 
greater than any unsigned number. */ 
if ((id->match flags & USB DEVICE ID MATCH DEV LO) && 
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584 (id->bedDevice_lo > dev—->descriptor. bcdDevice)) 

585 continue; 

586 

587 if ((id-»match flags & USB DEVICE ID MATCH DEV HI) && 

588 (id-»bcdDevice hi < dev-»descriptor. bcdDevice)) 

589 continue; 

590 

591 if ((id- match flags & USB DEVICE ID MATCH DEV CLASS) && 
592 (id->bDeviceClass != dev->descriptor. bDeviceClass)) 

593 continue; 

594 

595 if ((id->match flags & USB_DEVICE_ID_MATCH_DEV_SUBCLASS) && 
596 (id->bDeviceSubClass!= dev-»descriptor. bDeviceSubClass) ) 
597 continue; 

598 

599 if ((id->match flags & USB DEVICE ID MATCH DEV PROTOCOL) && 
600 (id->bDeviceProtocol {= dev-»descriptor. bDeviceProtocol)) 
601 continue; 

602 

603 intf = &interface—raltsetting [interface->act altsetting] ; 
604 

605 if ((id->match_flags & USB DEVICE ID MATCH INT CLASS) && 
606 (id->bInterfaceClass != intf->bInterfaceClass) ) 

607 continue; 

608 

609 if ((id->match flags & USB DEVICE ID MATCH INT SUBCLASS) && 
610 (id-»bInterfaceSubClass != intf—bInterfaceSubClass) ) 
611 continue; 

612 

613 if ((id- match flags & USB DEVICE ID MATCH INT PROTOCOL) && 
614 (id->bInterfaceProtocol != intf—binterfaceProtocol)) 
615 continue; 

616 

617 return id; 

618 } 

619 

620 return NULL; 

621 } 


登记 的 每 个 usb_driver 结构 都 应 该 有 个 id 表 ， 说 明 该 驱动 程序 (模块 ) 适用 于 哪 一 些 设备 。 所 请 
id ŽILA usb device id 结构 数组 ， 这 种 数据 结构 定义 寺 include/linux/usb.h: 


347 struct usb device id { 


348 /* This bitmask is used to determine which of the following fields 
349 * are to be used for matching. 

350 */ 

351 _ul6 match_flags; 
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352 

353 /* 

354 * vendor/product codes are checked, if vendor is nonzero 
355 * Range is for device revision (bcdDevice), inclusive: 
356 * zero values here mean range isn’ t considered 

357 */ 

358 _ ul6 idVendor; 

359 |. ul idProduct; 

360 . ul6 bedDevice lo, bedDevice hi; 

361 

362 /* 

363 * if device class != 0, these can be match criteria: 
364 * but only if this bDeviceClass value is nonzero 
365 */ 

366 __u8 bDeviceClass; 

367 .. ug bDeviceSubClass; 

368 .. us bDeviceProtocol; 

369 

370 /* 

371 * 1f interface class != 0, these can be match criteria; 
212 * but only if this bInterfaceClass value is nonzero 
373 */ 

374 __us bInterfaceClass; 

375 .. us bInterfaceSubClass: 

376 .. us binterfaceProtocol; 

377 

378 /* 

379 * for driver s use; not involved in driver matching. 
380 */ 

381 unsigned long driver info; 

382 Jis 


每 个 usb_device_id 结构 描述 着 一 个 驱动 程序 可 以 适用 的 对 象 , 包括 由 谁 制造 、 制 造 商 的 产品 编号 、 
设备 的 类 型 、 接 口 的 类 型 等 等 特征 信息 。 同 时 ， 结 构 中 还 有 个 位 图 match_flags， 说 明 必 须 有 哪些 特征 
信息 都 相符 才 可 以 把 一 个 设备 及 接口 认定 为 与 给 定 驱 动 程序 相符 。 如 果 usb_match_id( ) 返 回 非 0, 就 说 
明 找 到 了 适用 于 目标 设备 的 驱动 程序 。 然 后 ， 就 可 以 让 这 个 驱动 模块 的 probe 函数 来 进行 该 设备 的 初 
始 化 了 。 对 于 扫描 器 ， 其 probe 函数 为 probe_scanner( )， 它 的 代码 在 drivers/usb/scannere H, RIAR 
阅读 。 


[usb_scanner_init( ) > usb register( ) > usb_scan_devices( ) > usb check support( ) 
> usb. find. interface. driver( ) > probe. scanner( )] 


626 static void * 

627 probe scanner(struct usb device *dev, unsigned int ifnum, 
628 const struct usb device id *id) 

629 { 
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630 
631 
632 
633 
634 
635 
636 
637 
638 
639 
640 
641 
642 
643 


644 
645 
646 
647 
648 
649 
650 
651 
652 
653 
654 
655 
656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
668 
669 
670 
671 


672 
613 
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struct scn usb data *scn; 
struct usb interface descriptor *interface; 
struct usb endpoint descriptor *endpoint; 


int ep cnt; 
int ix; 


kdev t scn minor; 


char valid device = 0; 
char have bulk in, have bulk out, have intr; 


if (vendor != -1 && product != -1) { 
info( 
"probe scanner: User specified USB scanner — Vendor:Product - %x:%x", 
vendor, product); 


} 


dbg(”probe_scanner: USB dev address:%p”, dev); 
dbg("probe scanner: ifnum:Xu^, ifnum) ; 


/本 

* i. Check Vendor/Product 

* 2. Determine/Assign Bulk Endpoints 
* 3. Determine/Assign Intr Endpoint 


*/ 


ic 
* 


There doesn’t seem to be an imaging class defined in the USB 

Spec. (yet). If there is, HP isn't following it and it doesn't 
look like anybody else is either. Therefore, we have to test the 
Vendor and Product ID’ s to see what we have. Also, other scanners 
may be able to use this driver by specifying both vendor and 
product ID's as options to the scanner module in conf. modules. 


NOTE: Just because a product is supported here does not mean that 
applications exist that support the product. It's in the hopes 
that this will allow developers a means to produce applications 
that will support USB products. 


* 0X * X* X* X X X X X X X* OF 


Until we detect a device which is pleasing, we silently punt. 


* 
™ 


for (ix = 0; 
ix € sizeof(scanner device ids) / sizeof (struct usb device id); 
Ix) 4 
if ((dev->descriptor. idyendor == scanner device ids [ix]. idVendor) && 
(dev->descriptor. idProduct == scanner device ids [ix]. idProduct)) { 


493 . 


Linux 内 核 源 代码 情景 分 析 《〈 下 册 》 


674 valid device = 1; 

675 break; 

676 } 

677 } 

678 if (dev-Ddescriptor. idVendor == vendor && /* User specified */ 
679 dev->descriptor. idProduct == product) { /* User specified */ 
680 valid_device = 1; 

681 } 

682 

683 if (!valid_device) 

684 return NULL; /* We didn’ t find anything pleasing */ 
685 

686 /* 

687 * After this point we can be a little noisy about what we are trying to 
688 * configure. 

689 */ 

690 

691 if (dev—->descriptor. bNumConfigurations != 1) { 

692 info(,probe scanner: Only one device configuration is supported. ”); 
693 return NULL; 

694 } 

695 

696 if (dev->config[0]. bNumInterfaces != 1) | 

697 info('probe scanner: Only one device interface is supported. ^); 
698 return NULL; 

699 ) 

100 

701 interface = dev->config[0]. interface[ifnum].altsetting; 

702 endpoint = interfacelifnum]. endpoint; 

703 


首先 将 目标 设备 跟 扫 描 器 的 id 表 scanner_device_ids 加 以 核对 。 然 后 ， 使 指针 interface 指向 目标 接 
口 的 usb_interface_descriptor 数据 结构 。 这 个 结构 中 的 指针 endpoint 指向 一 个 端点 描述 结构 数组 ， 结 构 
中 的 另 -个 字段 bNumEndpoints 则 记录 着 这 个 数组 的 大 小 ， 即 本 接 册 的 端点 数量 。 数 组 中 的 每 一 个 
usb endpoint descriptor 结构 都 代表 着 目标 设备 中 的 … 个 端点 。 下 面 ， 就 要 对 这 些 端 点 进行 验证 ， 我 们 
继续 往 下 看 probe_scanner( ) 的 代码 (drivers/usb/scanner.c)。 


[usb scanner. init( ) > usb_register( ) > usb_scan_devices( ) > usb_check_support( ) 
> usb. find interface driver( ) > probe scanner( )] 


704 /* 

705 * Start checking for two bulk endpoints OR two bulk endpoints *and* one 
706 * interrupt endpoint. If we have an interrupt endpoint go ahead and 
707 * setup the handler. FIXME: This is a future enhancement... 

708 */ 

709 
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710 dbg(/probe scanner: Number of Endpoints:%d”, (int) interface->bNumEndpoints); 
111 

712 if ((interface—>bNumEndpoints != 2) && (interface->bNumEndpoints != 3)) | 
713 info( "probe scanner: Only two or three endpoints supported. ^); 
714 return NULL; 

715 } 

716 

717 ep cnt = have bulk in = have bulk out = have intr = 0; 

718 

719 while (ep cnt < interface->bNumEndpoints) | 

120 

721 if (!have bulk in && IS EP BULK IN(endpoint[ep ent])) { 

122 ep cntt*; 

723 have bulk in = ep_cnt; 

724 dbg("probe scanner: bulk in_ep:%d”, have bulk in); 

125 continue; 

126 j 

727 

728 if (have bulk out && IS EP BULK OUT(endpoint[ep cnt])) { 

729 ep_cnttt; 

730 have_bulk out = ep_cnt; 

731 dbg{”probe scanner: bulk_out_ep:%d”, have bulk out); 

132 continue; 

733 } 

134 

135 if (!have intr && IS EP INTR(endpoint[ep cnt])) ! 

136 ep cntt*; 

737 have_intr = ep cnt; 

738 dbg( "probe scanner: intr_ep:%d”, have intr); 

139 continue; 

740 } 

741 info("probe scanner: Undetected endpoint. Notify the maintainer. ^); 
142 return NULL;/* Shouldn't ever get here unless we have something weird */ 
743 } 

744 

745 

746 /* 

了 47 * Perform a quick check to make sure that everything worked as it 
748 * should have. 

749 */ 

750 

751 switch(interface->bNumEndpoints) { 

752 case 2: 

753 if (Ihave bulk in || !have bulk out) { 

754 info("probe scanner: Two bulk endpoints required. ^); 

155 return NULL; 

756 } 

757 break ; 
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198 
159 
760 


761 
762 
763 
164 
165 


766 
767 
768 
769 
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case 3: 
if (!have bulk in || !have bulk out || !have intr) ( 
info( "probe scanner: V 
Two bulk endpoints and one interrupt endpoint required. ^); 
return NULL; 
} 
break; 
default: 
info("probe scanner: V 
Endpoint determination failed. Notify the maintainer. ^); 
return NULL; 
} 
除 控 制 端点 外 ， 打 描 器 的 接口 上 还 应 该 有 输出 和 输入 两 个 成 块 传输 端点 。 此 外 可 能 还 有 一 个 中 肠 


传输 端点 。 人 这 里 用 到 的 几 个 宏 操 作 均 定义 于 drivers/usb/scanner.h 中 : 


59 
60 


61 


62 


#define 
#define 


#define 


Hdefine 


IS EP BULK(ep) ((ep). bmAttributes — USB ENDPOINT XFER BULK ? 1 : 0) 
1S EP. BULK IN(ep) (IS EP BULK(ep) && V 

((ep). bEndpointAddress & USB ENDPOINT DTR MASK) -- USB DIR IN) 
IS EP BULK OUT(ep) (IS EP BULK(ep) && \ 

( (ep). bEndpointAddress & USB ENDPOINT DIR MASK) -- USB DIR OUT) 
IS EP INTR(ep) ((ep). bmAttributes == USB ENDPOTNT XFER INT ? 1 : 0) 


每 个 端点 部 有 个 单字 节 的 地 址 ， 上 其 低 4 位 为 端点 写 ， 最 高 位 则 指明 上 其 方向 ， 所 以 检查 端点 地 址 的 
最 商 位 就 可 以 知道 块 状 端点 的 方向 为 输出 或 输入 。 当 然 ， 这 个 方向 位 对 十 双向 的 端点 没有 意义 。 此 外 ， 
端点 还 有 个 属性 字 节 ， 其 晤 低 两 位 表明 端点 的 类 型 。 有 关 的 常数 均 定义 杆 include/linux/usb.h: 


12 
73 
74 
75 
76 
TT 
78 
79 


#define 
#define 


#def ine 
#define 
&define 
#define 
#define 


USB_ENDPOINT NUMBER MASK OxOf /* in bEndpointAddress */ 
USB ENDPOINT DIR MASK 0x80 
USB ENDPOINT XFERTYPE MASK 0x03 /* in bmAttributes */ 


USB ENDPOINT XFER CONTROL 0 
USB ENDPOINT XFER TSOC ] 
USB ENDPOINT XFER BULK 2 
USB ENDPOINT XFER INT 3 


HS T ARB INO is A CORE RS S DAS. ÉD XXI £1 RA SLM AAR M4 
scn usb data 数据 结构 。 这 种 数据 结构 定义 于 drivers/usb/scanner.h: 


87 
88 
89 
90 
91 


struct scn usb data { 
struct usb device *scn dev; 


struct urb scn irq; 
unsigned int ifnum; /* Interface number of the USB device */ 
kdev t scn minor; /* Scanner minor - used in disconnect( ) */ 
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92 unsigned char button; /* Front panel buffer */ 

93 char isopen; /* Not zero if the device is open */ 

94 char present; /* Not zero if device is present */ 

95 char *obuf, *ibuf; /* transfer buffers */ 

96 char bulk in ep, bulk out ep, intr ep: /* Endpoint assignments */ 

97 wait queue head t rd wait q; /* read timeouts */ 

98 struct semaphore gen lock; /* lock to prevent concurrent reads or writes */ 
99 ] 


SA etr obuf 和 ibuf 分 别 指 各 用 于 该 扫描 器 的 输出 和 输入 缓冲 区 ， 所 以 要 为 之 分 配 空间 。 


[usb scanner init( ) > usb register( ) > usb scan, devices( ) > usb check support( ) > 
usb find interface driver( ) > probe, scanner( )] 


770 /* 

771 * Determine a minor number and initialize the structure associated 
772 * with it. The problem with this is that we are counting on the fact 
773 * that the user will sequentially add device nodes for the scanner 
774 * devices. */ 

775 

776 for (scn minor ~ 0; scn minor < SCN MAX MNR; sen minor++) | 

777 if (!p scn table[scn minor]) 

778 break; 

719 } 

780 

781 /* Check to make sure that the last slot isn't already taken */ 

782 if (p sen table[scn minor]) { 

783 err ("probe scanner: No more minor devices remaining. ^); 

784 return NULL; 

785 } 

786 

787 dbg ("probe scanner: Allocated minor:%d”, sen minor); 

788 

789 if (!(scn = kmalloc (sizeof (struct sen usb data), GFP KERNEL))) { 
790 err (“probe scanner: Out of memory. ^); 

791 return NULL; 

792 } 

793 memset (scn, 0, sizeof(struct scn usb data)); 

794 dbg (“probe scanner (%d): Address of scn:*p^, scn minor, sen); 
195 

196 


bor EU ERAT ERES. TEM. nurses RAE, WE ix] 9n pei 
E- 个 周期 性 的 中 断 传输 ， 建 立 起 对 扫 折 器 的 定期 查询 (drivers/uasb/scanner'c)。 


[usb scanner init( ) > usb_register( ) > usb_scan_devices( ) > usb_check_support( ) 
»usb find interface driver( ) > probe scanner( )] 
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797 /* Ok, if we detected an interrupt EP, setup a handler for it */ 
798 if (have_intr) { 


799 dbg(/probe scanner(&d): Configuring IRQ handler for intr EP:*d", 
scn minor, have intr); 


800 FILL INT URB(&scn-^scn irq, dev, 

801 usb rcvintpipe(dev, have intr), 

802 &scn->button, 1, irq scanner, sch, 

803 // endpoint[(int)have intr]. bInterval) ; 

804 250) ; 

805 

806 if (usb submit urb(&scn-^scn irq)) { 

807 err (“probe scanner (%d): Unable to allocate INT URB.^, scn minor); 

808 kfree(scn); 

809 return NULL; 

810 } 

811 } 

812 

813 

814 /* Ok, now initialize all the relevant values */ 

815 if (!(sen-»obuf = (char *)kmalloc(OBUF SIZE, GFP KERNEL))) { 

816 err ("probe scanner (%d): Not enough memory for the output buffer.”, 
scn minor); 

817 kfree (sen) ; 

818 return NULL; 

819 } 

820 dbg("probe_scanner (%d): obuf address:%p”, scn minor, scn—>obuf) ; 

821 

822 if (!(sen—>ibuf = (char *)kmalloc(IBUF SIZE, GFP KERNEL))) { 

823 err('probe scanner (%d): Not enough memory for the input buffer. ”, 
scn minor); 

824 > kfree (scn->obuf) ; 

825 kfree (sen) ; 

826 return NULL; 

827 } 

828 dbg("probe_scanner (%d): ibuf address:%p”, scn minor, scn-^ibuf); 

829 

830 scn->bulk_in_ep = have bulk in; 

831 scn->bulk_out_ep = have bulk out; 

832 scn->intr_ep = have intr; 

833 scn->present = 1; 

834 scn->scn_dev = dev; 

835 Scn-?scn minor = scn_minor; 

836 scn->isopen = 0; 

837 

838 init MUTEX (&(sen->gen_lock)) ; 

839 

840 return p scn table[scn minor] = sen; 

841 } 
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我 们 把 为 扫描 器 调度 中 断 传输 的 过 程 搓 一 下 。 暂 旦 假定 probe_scanner( ) 的 操作 已 经 完成 ， 建 立 了 
扫描 器 的 usb interface descriptor 数据 结构 ， 并 为 之 建立 了 scn_usb_data 数据 结构 。 四 到 
usb_find_interface_driver( ) 的 代码 中 ， 下 “… 步 是 通过 usb_driver_claim_interface( ) 正 式 “ 认 领 ” 这 个 设备 
(接口 ) (drivers/usb/usb.c). 





[usb_scanner_init( ) > usb_register( ) > usb scan devices( ) > usb check support( ) 
» usb. find. interface driver( ) » usb driver claim, interface( )] 


461 /* 
462 * This is intended to be used by usb device drivers that need to 
463 * claim more than one interface on a device at once when probing 
464 * (audio and acm are good examples). No device driver should have 
465 * to mess with the internal usb interface or usb device structure 
466 * 
467 */ 
468 void usb_driver_claim_interface (struct usb_driver *driver, 
struct usb_interface *iface, void* priv) 


members. 


469 { 

470 if (liface || !driver) 

471 return; 

472 

473 dbg(^$s driver claimed interface %p”, driver—>name, iface); 
474 

475 iface->driver = driver; 

476 iface->private data = priv; 


477 } /* usb driver claim interface( ) */ 


总 之 ， 所 谓 “认领 ”就 是 使 一 个 usb_interface_descriptor 数据 结构 与 相应 设备 的 usb. driver 结构 挂 
E. 这样, 从 具体 设备 的 数据 结构 出 发 , 就 可 以 找到 其 设备 驱动 程序 了 ,就 这 样 , 当 usb_scan_devices( ) 
完成 了 对 所 有 USB 设备 的 打 描 时 ， 对 扫描 器 设备 的 登记 和 初始 化 就 完成 了 。 最 后 ， 以 次 设备 写 中 的 低 
4 位 为 下 标的 指针 数组 p_scn_table[ ] 纪 录 着 指向 每 个 具体 sen. usb. data 结构 的 地 址 。 


8.9.4 USB 设备 的 驱动 


要 对 一 台 扫 描 器 操作 时 ， 首 先 也 费 通 过 系统 调用 open ) 打 开设 备 文件 。 所 有 的 USB 设备 都 有 相同 
的 主 设备 号 USB_MAJOR， 而 根据 次 设备 号 划分 具体 的 设备 及 其 类 型 。 所 以 ,根据 设备 文件 节点 提供 
的 主 设备 号 ，CPU 首先 找到 USB 总 线 的 file operations 数据 结构 usb_fops， 从 中 得 到 用 于 open 操作 的 
函数 指针 ， 这 个 指针 指向 usb_open( )。 其 代码 在 drivers/usb/usb.c HF: 


2177 static int usb open (struct inode * inode, struct file * file) 
2178 人 

2179 int minor = MINOR(inode->i_rdev) ; 

2180 struct usb driver *c = usb minors[minor/16]; 
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int err = -ENODEYV ; 
struct file operations *old fops, *new fops = NULL; 


/* 
* No load-on-demand? Randy, could you ACK that it’s really not 
* supposed to be done? —— AV 
*/ 
if Ge || ! (new. fops = fops get (c->fops) )) 
return err; 
old fops = file-^f op; 
file-^f op = new fops; 
/* Curiouser and curiouser... NULL -»open( ) as “no device” ? */ 
if (file—^f op-^open) 
err = file->f op-^open(inode, file); 
if (err) 1 
fops put(file-^f op); 
file->f op = fops get(old fops); 
} 
fops_put (old fops) ; 
return err; 


然后 ; 进一步 根据 次 设备 导 从 指针 数组 usb_minors[ ] 中 找到 扫描 器 的 usb_driver 结构 - 我 们 知道 ， 
file 结构 中 的 指针 f_op 应 该 指出 向 目标 设备 的 file_operations 数据 结构 ，2188 行 引用 的 fops_get( ) 是 定 
MF include/linux/fs.h 的 宏 操 作 : 


860 
861 
862 
863 


#define fops get(fops) V 


(((fops) && (fops)— owner) \ 
? ( try inc mod count ((fops)-^owner) ? (fops) : NULL ) \ 
: (fops)) 


扫描 器 的 file operations 结构 是 usb_scanner_fops， 其 函数 指针 open 指向 open. scanner( )， 这 个 函 
数 的 代码 在 drivers/usb/scanner.c P: 


[usb_open( ) > open_scanner( )] 


345 
346 
347 
348 
349 
350 
351 
352 
353 
354 
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static int 
open scanner(struct inode * inode, struct file * file) 


struct scn usb data *scn; 
struct usb device *dev: 


kdev t scn minor; 


int err-0; 
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i —— d 


355 lock kernel ( ) ; 

356 

357 scn minor = USB SCN MINOR (inode) ; 

358 

359 dbg('open scanner: scn_minor:%d”, scn minor); 

360 

361 if (!p scn table[scn minor]) | 

362 err('open scanner(Wd): Unable to access minor data”, scn minor); 
363 err = ~ENODEV; 

364 goto out error; 

365 j 

366 

367 sen = p scn table[scn minor]; 

368 

369 dev = scn-?2scn dev; 

370 

371 if (!dev) { 

372 err (“open_scanner (%d): Scanner device not present”, scn minor); 
373 err = -ENODEV; 

374 goto out error; 

375 } 

376 

377 if (!scn->present) { 

378 err ("open_scanner (%d): Scanner is not present”, scn minor); 
379 err = -ENODEY ; 

380 goto out error; 

381 } 

382 

383 if (scn-^isopen) { 

384 err (“open scanner (%d): Scanner device is already open’, scn minor); 
385 err = —EBUSY; 

386 goto out error; 

387 } 

388 

389 init waitqueue head(&sen-^rd wait q); 

390 

391 scn-»isopen = 1; 

392 

393 file->private_data = scen; /* Used by the read and write metheds */ 
394 

395 MOD INC USE COUNT; 

396 

397 out error: 

398 

399 unlock kernel ( ); 

400 

401 return err; 

402  ] 
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我 们 把 这 个 函数 留 给 读者 。 有 关 p_scn_tablel ] 的 作用 可 参阅 前 一 小 节 中 probe_scannerO 的 代码 。 

打开 了 扫描 嚣 设备， 就 可 以 对 其 进行 读 / 写 ， 从 此 以 后 的 操作 有 着 两 个 层次 上 的 内 容 。 其 一 是 取决 
于 具体 设备 ， 即 扫描 器 本 身 的 操作 ， 例 如 “开启 光源 和 “设置 对 比 度 ”“ 设 置 扫 描 精 度 ”“ 开 始 扫描 ? 
等 等 ， 其 二 是 USB 总 线 的 操作 ， 即 如 何 实现 主机 与 目标 设备 之 间 的 信息 传输 ， 使 对 具体 设备 的 操作 得 
以 实现 。 如 果 拿 内 核 与 应 用 软件 之 间 的 关系 作 一 个 比拟 ， 则 前 者 可 以 比 作 应 用 软件 ， 而 后 者 可 以 比 作 
内 核 。 前 者 是 目的 , 后 者 是 手段 和 基础 设施 。 就 一 般 的 设备 而 言 , 这 二 者 都 是 在 内 核 中 实现 的 , 对 USB 
设备 的 驱动 当然 也 可 以 把 这 二 者 都 放 在 内 核 中 实现 。 可 是 ， 对 一 些 速 度 要 求 不 高 、 操 作 不 很 频繁 、 与 
内 核 中 其 他 成 分 关系 又 不 大 的 设备 ， 把 前 者 放 在 用 户 空 间 也 有 好 处 。 拿 扫描 器 米 说 ， 不 同 厂商 、 不 局 
型 号 的 扫描 器 在 具体 的 操作 上 可 能 有 相当 的 区 别 ， 放 在 用 户 空间 中 实现 可 以 提供 更 大 的 灵活 性 。 所 以 ， 
对 扫描 器 本 身 的 操作 是 在 进程 这 :层次 上 实现 的 ， 而 内 核 只 提供 对 所 | 描 器 操作 的 手段 。 我 们 在 这 里 的 
目的 并 不 在 村 提 描 器 本 身 ， 而 在 于 驱动 USB 设备 的 手段 及 上 基础 设施 ， 襄 好 像 本 书 的 题材 不 华 于 各 种 应 
用 软件 ， 而 在 于 使 这 些 应 用 软件 得 以 运行 的 手段 及 基础 设施 一 样 。 

一 般 来 说 ， 从 系统 的 角度 米 看 ， 对 设备 的 操作 无 非 是 两 方面 的 信息 交换 ，- -方面 是 控制 /状态 信息 
的 传输 ， 男 一 方面 是 数据 的 传输 ， 常 党 分 别称 为 “控制 道道 ”(control path) 和 “数据 通道 ”(data path). 
至 于 以 何 种 方式 实现 这 典 种 通道 ， 则 存在 着 一 些 灵活 性 。 例 如 ， 对 于 扫描 器 的 数据 通道 - 般 都 是 通过 
“成 块 "(bulk) 方 式 传输 的 ,这 是 因为 对 扫描 器 的 输入 显然 没有 实时 此 求 ,不 需要 通过 “等 时 ”(isochronous) 
方式 传输 。 对 于 控制 道道 则 更 无 采用 等 时 传输 的 理由 。 但 是 ， 在 采用 控制 传输 还 是 成 块 传输 方式 来 伟 
递 控制 /状态 信息 这 一 点 上 ， 如 果 有 具体 的 设备 允许 并 提供 了 相应 的 于 段 ， 却 还 是 可 以 推 殴 的 。 扫 描 器 就 
古 这 样 ， 现 代 的 扫描 器 大 多 支持 “扫描 器 语言 "， 使 得 通过 数据 通道 也 可 以 实 坝 控 制 目 的 (类 似 于 终端 
设备 的 Escape 序列 )。 如 前 所 述 ， 控 制 传输 的 优先 级 别 比 成 块 传输 高 ， 而 且 企 USB 总 线 上 保密 了 一 定 
的 带宽 用 于 控制 传输 ， 所 以 比较 可 靠 。 但 是 ， 若 采用 成 块 方 式 传输 则 可 以 简化 程序 设计 ， 因 为 那样 就 
可 以 不 加 区 分 地 一 律 采用 成 块 方式 传输 。 从 表面 上 看 ， 这 样 会 使 控制 /状态 信息 的 传输 降低 优先 级 别 并 
得 不 到 保障 ， 可 是 对 于 扫描 器 这 样 的 设备 其 实 并 无 多 大 区 划 。 试 焊 ， 如 果 USB 总 线 的 负 储 已 经 大 到 不 
能 保证 传输 数据 的 地 步 ， 那 么 提高 控制 /状态 信息 的 优先 级 别 ， 以 此 来 保证 能 启动 打 描 还 有 多 人 意义 ? 
所 以 ,在 扫描 瞧 的 设备 驱动 代码 中 有 个 条 件 编译 控制 SCN_IOCTL。 如 果 选 择 了 这 个 选项 ， 则 应 用 进程 
顷 通 过 系统 调用 ioctl( ) 传 递 控制 /状态 信息 ， 而 通过 read( )/write( ) 读 / 写 数 据 ， 否 则 便 一 律 通过 
read( )/write( ) 对 扫描 器 操作 。 我 们 在 这 里 假定 选择 通过 ioctl( ) 传 递 控制 /状态 信息 ， 月 的 是 计 读者 由 此 
可 以 看 到 控制 传输 的 实例 。 扫 描 器 的 ioctl( ) 函 数 为 ioctL_scannert )。 其 代码 在 drivers/usb/scanner.c 中 ， 





863 #ifdef SCN_IOCTL 
864 static int 


865 ioctl_scanner (struct inode *inode, struct file *file, 
866 unsigned int cmd, unsigned long arg) 

867 { 

868 struct usb device *dev; 

869 | 

870 int result; 

871 

812 kdev t scn minor; 

873 

874 scn minor = USB SCN MINOR (inode); 
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if (!p_scn_table[scn_minor]) { 
err “ioctl scanner (%d): invalid scn_minor”, scn minor); 
return -ENODEY; 

} 


dev = p scn table[scn_minor]—>scn_dev; 


switch (cmd) 


{ 
case PV8630 IOCTL INREQUEST : 
{ 
struct { 
u8 data; 
_ u8 request; 
. ul6 value; 
| ul6 index; 
} args; 


if (copy from user(&args, (void *)arg, sizeof(args))) 
return -EFAULT; 


result = usb control msg(dev, usb rcvctrlpipe(dev, 0), 
args. request, USB TYPE VENDOR| 
USB RECIP DEVICE|USB DIR IN, 
args. value, args. index, &args. data, 
1, HZ*5); 


dbg (”ioctl_scanner (4d): inreq: args. data:%x args. value: 
%x args. index:%x args. request:%x\n’, 
scn minor, args. data, args. value, args. index, args. request) ; 


if (copy to user((void *)arg, &args, sizeof (args) ) ) 
return -EFAULT; 


dbg (“ioctl scanner(*d): inreq: result:%d\n”, scn minor, result); 


return result; 
) 
case PV8630 IOCTL OUTREQUEST : 
| 
struct { 
|  u8 request; 
|. ul6 value; 
|. ul6 index; 
} args; 


if (copy from user(&args, (void *)arg, sizeof(args))) 
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921 return -EFAULT; 
922 
923 dbg( ioctl scanner(9d): outreq: args. value: 9x args. index: \ 


Wx args. request: *xMn^, 
scn minor, args. value, args. index, args. request): 

924 
925 result - usb control msg(dev, usb sndctrlpipe(dev, 0), 
926 args.request, USB TYPE VENDOR| 
927 USB RECIP DEVICE|USB DIR OUT, 
028 args. value, args. index, NULL, 
929 0, HZ*5); 
930 
931 dbg( ioctl scanner (%d): outreq: result: 9dNn", scn minor, result): 
932 
933 return result; 
934 } 
935 default: 
936 return -ENOIOCTLCMD; 
937 } 
938 return 0; 
939 } 
940 Hendif /* SCN IOCTL */ 


驱动 程序 的 设计 者 为 扫描 器 的 ioctl( ) 操 作 定 义 了 PV8630 IOCTL INREQUEST 和 
PV8630 IOCTL OUTREQUEST 两 种 命令 ， 前 者 用 于 从 打 描 器 读 入 状态 信息 ， 后 者 用 于 向 扫描 器 发 出 
控制 命令 。 二 者 都 通过 usb_control_msg( ) 完 成 信息 的 传递 。 比 较 一 下 897 和 925 行 ， 可 以 看 出 所 不 同 
的 有 两 点 。 首 先是 第 二 个 参数 ， 一 为 usb_rcvctrlpipe(dev, 0), 为 usb_sndctrlpipe(dev, 0); 还 有 就 是 第 
5 个 参数 中 的 标志 位 USB_DIR_IN 和 USB_DIR_OUT。 先 看 第 二 个 参数 ， 这 里 引用 的 两 个 宏 操 作 均 定 
X. F include/linux/usb.h: 


700 #define PIPE_CONTROL 2 


745 #define usb sndctrlpipe(dev, endpoint) \ 


((PIPE CONTROL << 30) | | create pipe(dev, endpoint)) 
746 #define usb _revetrlpipe (dev, endpoint)  \ 
((PIPE_CONTROL << 30) | __create_pipe (dev, endpoint) | USB DIR IN) 


这 里 的 __create_pipe( ) 是 个 inline 函数 ， 也 是 在 include/linux/usb.h 中 定义 的 : 


734 static inline unsigned int __create pipe(struct usb device *dev, 
unsigned int endpoint) 


735 { 
736 return (dev->devnum << 8) | (endpoint << 15) | (dev—slow << 26); 
(cy J 


这 些 操作 为 本 次 传输 构筑 起 一 个 32 位 长 字 ， 以 后 将 用 作 传 令 (token) 信 和 包 的 主体 。 这 个 长 宁 的 最 高 
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两 位 表示 传输 的 类 型 , 中 部 是 7 位 的 设备 地 址 加 上 4 位 的 端点 号 。 其 bit26 表示 对 方 是 否 低 速 设备 , bit7 
为 1 则 表示 方向 为 输入 。 
常数 USB_DIR_ OUT Xii USB. DIR IN 也 定义 于 include/linux/usb.h: 


38 /* 

39 * USB directions 

40 */ 

4] #define USB DIR OUT 0) 

42 #define USB DIR_IN 0x80 


此 外 ， 同 一 文件 中 为 等 时 、 成 块 以 及 中 断 管 道 也 定义 了 相应 的 宏 操 作 以 及 常数 。 


747 #define usb sndisocpipe (dev, endpoint)  \ 


((PIPE ISOCHRONOUS << 30) | | create pipe (dev, endpoint) ) 
748 Hdefine usb rcvisocpipe(dev, endpoint) \ 
((PIPE ISOCHRONOUS << 30) | __create_pipe(dev, endpoint) | USB DIR IN) 


749 #define usb sndbulkpipe(dev, endpoint)  \ 
((PIPE BULK << 30) | | create pipe(dev, endpoint)) 
750 #define usb rcvbulkpipe (dev, endpoint) \ 
( (PIPE BULK << 30) | | create pipe(dev, endpoint) | USB DIR IN) 
751 define usb sndintpipe (dev, endpoint) \ 
( (PIPE INTERRUPT << 30) | __create_pipe (dev, endpoint) ) 
752 #define usb rcevintpipe (dev, endpoint) \ 
((PIPE INTERRUPT << 30) | create_pipe (dev, endpoint) | USB DIR IN) 


698 #define PIPE_ISOCHRONOUS 0 
699 #define PIPE_INTERRUPT 1 
700 #define PIPE_CONTROL 2 
701 #define PIPE BULK 3 


再 看 第 4 个 参数 ， 其 中 的 USB_RECIP_ DEVICE 等 常数 也 定义 于 include/linux/usb.h FP: 


21 /* 

22 x USB types 

23 */ 

24 #define USB TYPE STANDARD (0x00 << 5) 
25 #define USB TYPE CLASS (0x01 << 5) 
26 #define USB TYPE VENDOR (0x02 << 5) 
27 #define USB TYPE RESERVED (0x03 << 5) 
28 

29 /* 

30 * USB recipients 

31 */ 

32 Hdefine USB RECIP MASK Ox1f 

33 #define USB RECIP DEVICE 0x00 


- 505 . 


Linux 内 核 源 代码 情景 分 析 《〈 下 贡 ) 


34 #define USB RECIP INTERFACE 0x01 
35 #define USB RECIP ENDPOINT 0x02 
36 #define USB_RECIP OTHER 0x03 


常数 USB RECIP DEVICE 表示 传输 的 终极 对 象 是 设备 ， 而 不 是 接口 ， 也 不 是 端点 本 身 。 
USB. TYPE, VENDOR 则 表示 在 日 标 设备 中 要 访问 的 寄存 器 是 由 设备 制造 商定 义 的 ， 而 不 属于 标准 的 
USB 寄存 器 。 作 为 对 比 ， 读 者 可 以 回 到 前 一 小 节 看 一 下 枚 举 阶 段 对 usb_control_msg( ) 的 调用 ， 在 那里 
第 4 个 参数 常常 是 0 或 USB_DIR_IN， 这 就 是 因为 USB, TYPE STANDARD 和 USB_RECIP_DEVICE 
的 定义 都 起 0，USB_DIR_OUT 也 是 0。 

虽然 我 们 在 这 里 是 结合 具体 的 设备 扫 撒 器 读 usb_control_msg( AIS, RAMAN. BTS 
础 设施 一 类 的 函数 。 在 前 一 小 节 中 ,我 们 就 看 到 在 USB 设备 极 举 的 过 程 中 频繁 地 调用 这 个 函数 从 设备 
读 取 各 种 信息 。 这 个 函数 的 代码 在 drivers/usb/usb.c FP: 


[ioctl_scanner( ) > usb_control_msg( )] 


1065 fk 
1066 * usb control msg - Builds a control urb, sends it off and waits for completion 
1067 * (dev: pointer to the usb device to send the message to 
1068 * (pipe: endpoint “pipe” to send the message to 
1069 * (request: USB message request value 
1070 * @requesttype: USB message request type value 
1071 * @value: USB message value 
1072 * (index: USB message index value 
1073 * (data: pointer to the data to send 
1074 * (size: length in bytes of the data to send 
1075 * (timeout: time to wait for the message to complete before 

timing out (if 0 the wait is forever) 
1076 * 
1077 * This function sends a simple control message to a specified endpoint 
1078 * and waits for the message to complete, or timeout. 
1079 * 
1080 * If successful, it returns 0, othwise a negative error number. 
1081 * 
1082 * Don t use this function from within an interrupt context, like a 
1083 * bottom half handler. If you need a asyncronous message, or need to send 
1084 * a message from within interrupt context, use usb submit urb( ) 
1085 */ 
1086 int usb control msg(struct usb device *dev, unsigned int pipe, 

. u8 request, | u8 requestLype, 

1087 = ulë value, | ul6 index, void *data, ^ ul6 size, int timeout) 
1088 ( 
1089 devrequest *dr = kmalloc(sizeof(devrequest), GFP KERNEL); 
1090 int ret; 
1091 
1092 if (ldr) 
1093 return -ENOMEM; 
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1094 

1095 dr->requesttype = requesttype; 
1096 dr->request = request; 

1097 dr->value = cpu to lel6p (&value): 
1098 dr~>index = cpu to lel6p (&index) : 
1099 dr->length = cpu to lel6p(&size); 
1100 

1101 //dbg( usb control msg”); 

1102 

1103 ret = usb internal control msg(dev, pipe, dr, data, size, timeout); 
1104 

1105 kfree (dr) ; 

1106 

1107 return ret; 

1108 ] 


参数 dev 指向 月 标 设 备 的 usb_device 数据 结构 。pipe 是 个 32 位 无 符号 整数 ， 那 就 是 上 面 构筑 的 32 
位 氏 学 。 其 最 高 两 位 表示 传输 的 类 型 (等 时 /中 断 /控制 /成 块 )， 其 余 各 位 包括 对 方 的 端点 号 以 及 设备 号 ， 
以 及 设备 是 否 为 全 速 ( 或 低速 )。 此 外 ，reguesttype 是 个 8 位 字 节 ， 其 最 高 位 表示 传输 的 方向 ， 最 低 5 
位 则 表明 传输 终极 对 象 的 类 别 (设备 /接口 /端点 /其 它 )， 通 常 这 意味 着 一 组 寄存 器 或 者 一 小 块 存储 区 间 |; 
而 index 则 进而 指明 了 其 体 的 单元 ， 这 就 是 终极 的 操作 对 象 。 针 对 这 个 操作 对 象 ，request 说 明了 需要 
进行 的 操作 ， 而 value 则 是 参数 。 如 果 有 更 多 的 数据 需要 传递 ( 读 / 写 )， 则 通过 缓冲 区 data 进行 ， 其 大 小 
为 Size。 这 些 都 是 从 用 户 空 间 传 下 的 参数 ， 而 传输 的 目的 正 是 要 把 这 些 信和 总 发 送 给 目标 设备 。 最 后 ， 
参数 timeout 表示 愿意 睡 喉 等 待 传输 完成 的 时 间 。 显 然 ，usb_control_msg( ) 只 是 个 外 包装 ， 实 际 的 操作 
由 usb_internai_control_msg( ) 完 成 。 在 传输 的 过 程 中 ， 端 点 起 着 类 似 填 “传达 室 ” 的 作用 。 

根据 USB 心 线 规格 书 的 规定 ， 需 要 发 送 给 上 月 标 设备 的 这 些 信 息 要 组 装 在 一 个 操作 请 求 块 中 。 这 里 
的 devrequest 就 是 根据 这 个 规定 而 定义 的 数据 结构 ， 其 定义 在 include/linux/usb.h 中 


151 typedef struct { 


152 .u8 requesttype; 
153 _u8 request; 
154 . ul6 value; 
155 . ul6 index; 
156 _ul6 length; 


157 ) devrequest — attribute | ((packed)); 


实际 上 ,这 个 数据 结构 就 是 SETUP 信和 包 的 内 容 , 而 缓冲 区 的 内 容 , 则 就 是 随后 的 数据 信和 包 的 内 容 。 
全 于 状态 阶段 的 信和 包 ， 则 是 来 自 (或 去 向 ) 终极 操作 对 象 (而 不 是 交互 对 象 ) 的 确认 。 
函数 usb internal control, msg( ) 的 代码 在 drivers/usb/usb.c 中 : 


[ioctl_scanner( ) > usb control msg( ) > usb_internal_control_msg( )] 


1042 // returns status (negative) or length (positive) 
1043 int usb internal control msg (struct usb device *usb dev, unsigned int pipe, 
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1044 
1045 
1046 
1047 
1048 
1049 
1050 
1051 
1052 
1053 
1054 


1055 
1056 
1057 
1058 
1059 
1060 
1061 
1062 
1063 


} 
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devrequest *cmd, void *data, int len, int timeout) 


urb t *urb; 
int retv; 
int length; 


urb = usb alloc urb(0); 
if (turb) 
return -ENOMEM; 


FILL CONTROL URB(urb, usb dev, pipe, (unsigned char*) cmd, 
data, len, /* build urb */ 
(usb complete t)usb api blocking completion, 0) ; 


retv = usb start wait urb(urb, timeout, &length) ; 
if (retv < 0) 

return retv; 
else 

return length; 


对 于 USB 总 线 上 的 每 个 传输 ， 需 要 为 之 创建 - :个 “USB 传输 请 求 块 ” BI usb 数据 结构 。 简 而 言 
之 ， 发 送 控制 报 文 的 过 程 就 是 ， 根 据 参 数 建立 一 个 usb 数据 结构 ， 把 这 个 usb 结构 交 给 低层 ， 让 低层 
据 以 调度 相应 的 控制 传输 ， 然 后 睡眠 等 待 传输 的 完成 。 

这 种 数据 结构 的 定义 在 include/linux/usb.h 中 : 


440 
441 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
457 
458 
459 


typedef struct urb 


{ 
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spinlock_t lock; /* lock for the URB */ 

void *hcpriv; /* private data for host controller */ 

struct list head urb list; /* list pointer to all active urbs */ 

struct urb *next; /* pointer to next URB */ 

struct usb device *dev; /* pointer to associated USB device */ 
unsigned int pipe; /* pipe information */ 

int status; /* returned status */ 

unsigned int transfer flags; /* USB DISABLE SPD | USB ISO ASAP | etc. */ 
void *transfer buffer; /* associated data buffer */ 

int transfer buffer length; /* data buffer length */ 

int actual length; /* actual data buffer length */ 

int bandwidth; /* bandwidth for this transfer request (INT or ISO) */ 
unsigned char *setup packet; /* setup packet (control only) */ 

int start frame; /* start frame (iso/irq only) */ 

int number of packets; /* number of packets in this request (iso) */ 
int interval; /* polling interval (irq only) */ 

int error count; /* number of errors in this transfer (iso only) */ 
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460 int timeout; /* timeout (in jiffies) */ 

461 l 

462 void *context; /* context for completion routine */ 
463 usb_complete_t complete; /* pointer to completion routine */ 
464 

465 iso packet descriptor t iso frame, desc[0]; 


466 ) urb t, *purb t; 
同一 文件 中 还 定义 了 一 个 宏 操 作 FILL. CONTROL. URB( ): 


468 #define FILL_ CONTROL, URB (a, aa, b, c, d, e, f, g) ^ 


469 do {\ 

410 spin lock init (&(a)—>lock) ; \ 
471 (a) -^dev-aa; 

472 (a)->pipe=b; \ 

473 (a)-—>setup_packet=c; \ 

474 ‘(a)->transfer_buffer=d; \ 

475 (a)->transfer_buffer_length=e; \ 
476 (a)—>complete=f; \ 

477 (a) -^context-g; 

478 } while (0) 


对 照 上 面 对 FILL_CONTROL_URB( ) 的 引用 ， 可 知 urb->dev 设置 成 指向 usb_dev, urb->pipe 为 日 
标 设备 的 控制 管道 ， 即 端点 0，urb->setup_packet 指向 前 面 创 建 的 devrequest 数据 结构 ， 
urb->transfer_buffer 设置 成 前 面 的 参数 data, urb-»complete 指向 usb_api_blocking_completion( )， 
urb->context 则 暂时 为 0。 

设置 好 urb 数据 结构 以 后 ， 就 通过 usb_start_wait_urb( )“ 提 交 ” 这 个 urb 数据 结构 ， 并 等 符 父 互 的 
完成 。 这 个 函数 的 代码 在 drivers\usb\usb.c 中 : 


[ioctl scanner( ) > usb control msg( ) > usb, internal control msg( ) > usb_start_wait_urb( )] 


995 // Starts urb and waits for completion or timeout 
996 static int usb start wait urb (urb t *urb, int timeout, int* actual length) 
997 { 


998 DECLARE_WAITQUEUE (wait, current) ; 
999 DECLARE WAIT QUEUE HEAD (wah) ; 
1000 api wrapper data awd; 

1001 int status; 

1002 

1003 awd. wakeup = &wqh; 

1004 init waitqueue_head (&wgh) ; 

1005 current-^state = TASK INTERRUPTIBLE; 
1006 add wait queue(&wqh, &wait); 

1007 urb->context = &awd; 

1008 status = usb_submit_urb(urb) ; 
1009 if (status) { 
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1010 // something went wrong 

1011 usb free urb(urb); 

1012 current—>state = TASK RUNNING; 

1013 remove wait queue(&wqh, &wait); 

1014 return status; 

1015 } 

1016 

1017 if (urb->status == -EINPROGRESS) { 

1018 while (timeout && urb->status == -EINPROGRESS) 
1019 status = timeout = schedule timeout (timeout) ; 
1020 } else 

102] status = 1; 

1022 

1023 current-—>state = TASK RUNNING; 

1024 remove wait queue(&wgh, &wait) ; 

1025 

1026 if (status) { 

1027 // timeout 

1028 printk (“usb control/bulk msg: timeout\n”) ， 
1029 usb unlink urb(urb); // remove urb safely 
1030 status = -ETIMEDOUT; 

1031 } else 

1032 status = urb-»status; 

1033 

1034 if (actual length) 

1035 *actual length = urb-^actual length; 

1036 

1037 usb free urb(urb); 

1038 return status; 

1039 ] 


像 以 前 多 次 见 到 的 那样 ( 详 见 第 4 章 ), 在 当前 进程 的 系统 空间 堆栈 上 建立 起 一 个 等 待 队列 ， 并 将 当 
前 进程 的 task 结构 通过 一 个 wait queue t 数据 结构 挂 在 队列 中 。 同 时 ， 又 定义 了 一 个 api_wrapper_data 
数据 结构 awd。 这 种 数据 结构 定义 于 include/linux/usb.h: 


540 typedef struct 


541 { 

542 wait queue head t *wakeup; 
543 

044 void* stuff; 

545 /* more to follow */ 


546 } api wrapper data; 


使 awd.wakeup 指 癌 上述 的 队列 头 ， 再 使 urb 结构 中 的 指针 context 指向 awd, WE urb 结构 与 等 待 
队列 之 间 建 立 起 了 联系 。 这 样 ， 从 具体 的 urb 结构 出 发 ， 就 可 以 找到 正在 等 待 其 (所 代表 的 传输 ) 完 成 的 
进程 。 然 后 就 通过 usb_submit_urb( ) 提 交 这 个 传输 请 求 。 其 代码 在 drivers/usb/usb.c 中 : 
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[ioctl. scanner( ) > usb_control_msg( ) > usb_intemal_control_msg( ) > usb start. wait, urb( ) > 
usb submit urb( )) 


955 int usb submit urb(urb t *urb) 


956 { 

957 if (urb && urb->dev) 

958 return urb->dev—>bus~>op->submit_urb (urb) ; 
959 else 

960 return —ENODEV; 

96] } 


这 里 使 用 了 “提交 ”(submit) 这 个 词 ， 但 并 不 起 向 上 层 提交 ， 相 反倒 是 交付 给 下 层 的 总 思 。 瞄 么 下 
BEANIE? 这 就 是 UHC] 或 OHCI。 对 于 采用 UHC] 界面 的 USB 总 线 控制 器 ， 其 usb_bus 结构 中 的 


usb_operations 结构 指针 op 指向 drivers/usb/uhci.c 中 定义 的 uhci_device_operations. 


1615 struct usb operations uhci device operations = { 


1616 uhci alloc dev, 

1617 uhci free dev, 

1618 uhci get current frame number, 
1619 uhci submit urb, 

1620 uhci unlink urb 

1621 }; 


显然 ，UHCI 界面 的 函数 指针 submit urb 指向 uhci, submit, urb( ). AMAA A ek, MBARK 
付 控 制 传输 ， 也 用 来 交付 等 时 、 中 断 以 及 成 块 传输 。 其 代码 在 drivers/usb/uhci.c 中 : 


[ioctl. scanner( ) > usb. control msg( ) > usb_internal_control_msg( ) > usb. start wait. urb( ) 
> usb submit urb( ) > uhci. submit, urb( )] 


1291 static int uhci submit urb (struct urb *urb) 


12022 { 

1293 int ret = -EINVAL; 

1294 struct uhci *uhci; 

1295 unsigned long flags; 

1296 struct urb *u; 

1297 int bustime; 

1298 

1299 if (!urb) 

1300 return -EINVAL; 

1301 

1302 if (turb->dev || !urb-»dev—bus || !urb->dev—->bus->hcpriv) 
1303 return -ENODEV; 

1304 

1305 uhci = (struct uhci *)urb-^dev-^bus-^hepriv; 
1306 

1307 /* Short circuit the virtual root hub */ 
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1308 if (usb pipedevice(urb~>pipe) == uhci->rh. devnum) 
1309 return rh submit urb(urb); 

1310 

1311 u = uhci find urb ep (uhci, urb); 

1312 if (u && ! (urb->transfer flags & USB QUEUE BULK)) 
1313 return —ENXIO; 

1314 

1315° usb inc dev_use(urb->dev) ; 

1316 spin lock irqsave(&urb-^lock, flags); 

1317 

1318 if (iuhci alloc urb priv(urb)) 1 

1319 spin unlock irqrestore(&urb-^lock, flags); 

1320 usb dec dev use (urb->dev) ; 

1321 

1327 return -ENOMEM; 

1323 } 

1324 

1325 switch (ush_pipetype(urb->pipe)) { 

1326 case PIPE CONTROL: 

1327 ret = uhci submit control(urb); 

1328 break; 

1329 case PIPE TNTERRUPT: 

1330 if (urb->bandwidth == 0) { /* not yet checked/allocated */ 
1331 bustime = usb check bandwidth(urb-^dev, urb); 
1332 if (bustime < 0) 

1333 ret = bustime; 

1334 elsc { 

1335 ret = uhci submit interrupt (urb) ; 

1336 if (ret == -EINPROGRESS) 

1337 usb claim bandwidth(urb->dev, urb, bustime, 0); 
1338 } 

1339 } else /* bandwidth is already set */ 

1340 ret = uhci submit interrupt (urb); 

1341 break; 

1342 case PIPE BULK: 

1343 ret = uhci submit bulk(urb, u); 

1344 break; 

1345 case PIPE ISOCHRONOUS: 

1346 if (urb-^bandwidth == 0) | /* not yet checked/allocated */ 
1347 if (urb-^number of packets <= 0) { 

1348 ret = -EINVAL; 

1349 break; 

1350 } 

1351 bustime = usb check bandwidth(urb-^dev, urb): 
1352 if (bustime < 0) { 

1353 ret = bustime; 

1354 break; 

1355 } 
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1356 
1357 ret = uhci submit isochronous (urb); 
1358 if (ret — -EINPROGRESS) 
1359 usb claim_bandwidth(urb->dev, urb, bustime, 1); 
1360 ) else /* bandwidth is already set */ 
1361 ret = uhci submit isochronous (urb); 
1362 break; 
1363 } 
1364 
1365 urb-^status = ret; 
1366 
1367 spin unlock irqrestore(&urb-?lock, flags); 
1368 
1369 if (ret == -EINPROGRESS) 
1370 ret = 0; 
1371 else { 
1372 uhci unlink generic (urb) ; 
1373 usb dec dev use(urb-?dev); 
1374 ) 
1375 
1376 return ret; 
1377 } 
这 是 个 需要 细 加 阅读 的 函数 。 


对 于 采用 UHCI 界面 的 USB 总 线 控制 器 , 其 usb. bus 结构 中 的 指针 hepriv 指向 一 个 uhci 数据 结构 ， 
而 uhci 结构 中 有 个 次 层 结构 中 ， 里 面 是 有 关 根 集中 器 的 信息 ， 这 是 在 根 集中 器 初始 化 时 设置 好 的 。 如 
果 日 标 设备 恰好 就 是 根 集中 器 ， 那 么 通信 的 过 程 可 以 简化 ， 因 为 CPU 直接 就 可 以 访问 其 各 个 寄存 器 ， 
不 需要 通过 USB 总 线 就 能 进行 通信 ， 所 以 此 时 由 rh submit urb( ) 完 成 操作 。 这 个 函数 的 代码 在 
drivers/usb/uhci.c 中 ， 但 是 我 们 在 这 里 就 从 略 了 。 

与 其 他 所 有 USB 设备 的 通信 (传输 ) 都 此 通过 USB 总 线 上 的 交互 来 完成 , 因而 需要 为 具体 的 传输 调 
度 一 个 或 几 个 交互 。 除 等 时 传输 之 外 ， 在 调度 中 不 允许 同时 存在 对 同 对 和 象 的 两 个 同 种 传输 。 这 是 为 
什么 呢 ? 我 们 以 前 讲 过 ， 控 制 传输 和 成 块 传输 是 以 传输 (而 不 是 交互 为 单位 挂 入 调度 队列 的 ， 一 个 
传输 就 是 … 个 交互 队列 ， 而 对 这 些 队 列 的 执行 又 可 以 是 横向 执行 。 如 果 对 同一 对 象 的 两 个 传输 都 挂 在 
调度 队列 中 ， 就 有 可 能 使 两 个 传输 中 的 交互 夹杂 在 -起 ， 例 如 从 第 一 个 传输 中 执行 了 一 个 交互 以 后 就 
在 第 二 个 传输 中 也 执行 一 个 交互 ， 然 后 又 回 到 第 一 个 传输 ， 这 当然 就 乱 了 套 。 至 于 中 断 传 输 ， 则 只 包 
含 一 个 交 芋 ， 并 且 是 以 交互 为 单位 进行 调度 的 ， 但 是 却 并 没有 理 山 对 同 “端点 调度 钠 个 中 断 传输 。 

所 以 ， 先 通过 uhci_find_urb_ep( )， 寻 找 己 经 调度 而 尚未 完成 的 对 同一 对 象 的 同 种 传输 ， 其 代码 在 


drivers/usb/uhci.c |): 


[ioctl_scanner( ) > usb_control_msg( ) > usb_internal_control_msg( ) > usb_start_wait_urb( ) 
> usb submit urb( ) > uhci, submit, urb( ) > uhci_find_urb_ep( )] 


1263 static struct urb *uhci find urb ep(struct uhci *uhci, struct urb *urb) 
1204 | 
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struct list head *tmp, *head = &uhci-—urb list; 
unsigned long flags; 
struct urb *u = NULL; 


if (usb_pipeisoc (urb->pipe) ) 
return NULL; 


nested lock («uhci->urblist lock, flags); 
tmp = head->next; 
while (tmp != head) { 
u = list_entry(tmp, struct urb, urb list); 


tmp = tmp-?next; 

if (u->dev == urb-^dev && 
u->pipe == urb->pipe) 
goto found; 


} 
u = NULL; 


found: 
nested_unlock (&uhci->urblist_lock, flags); 


return u; 


} 


等 时 交互 的 调度 是 个 不 同 的 问题 ， 所 以 如 果 对 方 是 个 等 时 端点 (1269 行 ) 就 立即 返 癌 0。 这 里 的 
usb pipeisoc( ) 是 个 宏 操 作 ， 定 义 于 include/linux/usb.h。 与 此 类 似 的 宏 操 作 还 有 usb_pipeint( )、 
usb_pipecontrol( ) 以 及 usb_pipebulk( )。 


Hdefine usb pipeisoc(pipe) (usb pipetype((pipe)) == PIPE ISOCHRONOUS) 
define usb pipeint(pipe) (usb pipetype((pipe)) == PIPE INTERRUPT) 
define usb pipecontrol(pipe) (usb pipetype((pipe)) == PIPE CONTROL) 
define usb pipebulk(pipe) (usb pipetype((pipe)) == PIPE BULK) 


代码 中 的 nested lock( ) 和 nested unlock 也 是 drivers/usb/uhci.h 中 定义 的 宏 操 作 : 


#define nested lock(snl, flags) \ 

if ((snlD —uniq == current) { \ 
(snl)—>count++; V 
flags = 0; /* No warnings */ \ 

} else { \ 
spin lock irqsave(&(snl)—>lock, flags); V 
(snl)->count+t+; \ 
(snl)->unig = current; V 


(514 . 


disaster deus e dA LR E o E 


第 8 章 设备 驱动 


OOO 


31 Hdefine nested unlock(snl, flags) ^ 


32 if (1--(snl)-^count) { \ 

33 (snl)-»uniq = NULL; ^ 

34 spin unlock irqrestore(&(snl)-^lock, flags); ^ 
35 } 


如 果 在 队列 urb list PRET APRS, mH SAY urb 结构 ， 就 返回 指 由 该 结构 的 指 
针 ， 省 则 返回 NULL。…- 般 而 言 ， 如 果 已 经 存在 对 同一 目标 的 同 种 传输 ， 就 应 该 拒绝 调度 新 的 传输 请 
求 ， 让 高 层 的 软件 决定 是 否 稍 后 再 来 试 试 。 其 实 ， 控 制 传输 都 是 很 短暂 的 ， 并 且 启 动 控 制 传输 的 进程 
要 睡眠 等 待 其 完成 ， 所 以 发 生 这 种 情况 的 可 能 性 本 来 就 很 小 。 但 是 ， 对 于 成 块 传输 则 情况 有 所 不 同 ， 
所 以 允许 将 新 的 传输 与 已 经 存在 的 传输 合并 ， 但 是 必须 将 对 同一 对 象 的 传输 “ 串 行 化 ”， 就 是 把 它们 的 
人 交 开 依次 连接 在 同一 个 队列 中 。 这 样 ， 不 管 是 横向 执行 还 是 纵向 执行 都 能 保证 正确 的 次 序 。 

除 urb 数据 结构 以 外 ， 还 需 娄 有 个 urb priv 数据 结构 与 其 配合 使 用 。 这 种 数据 结构 定义 十 
drivers/usb/uhci.h: 


337 struct urb priv | 


338 struct urb *urb; 

339 

340 struct uhci qh *qh; /* QH for this URB */ 

34] 

342 int fsbr : 1; /* URB turned on FSBR */ 

343 int fsbr timeout : 1; /* URB timed out on FSBR */ 

344 int queued : 1; /* QH was queued (not linked in) */ 

345 int short control packet : 1;  /* If we get a short packet during */ 
346 /* a control transfer, retrigger */ 

347 /* the status phase */ 

348 

349 unsigned long inserttime; /* In jiffies */ 

350 

351 struct list head list; 

352 

353 struct list head urb queue list; /* URB s linked together */ 
354 


函数 uhci alloc. urb. priv( ) 的 代码 在 drivers/usb/uhci.c 中 


[usb_control_msg( ) > usb_internal_control_msg( ) > usb_start_wait_urb( ) > usb_submit_urb( ) 
> uhci submit urb( ) > uhci_alloc_urb_priv( )] 


480 struct urb priv *uhci_alloc_urb_priv (struct urb *urb) 


481 { 

482 struct urb priv *urbp; 

483 

484 urbp = kmem cache alloc(uhci up cachep, in interrupt( ) ? 


SLAB ATOMIC : SLAB, KERNEL) ; 
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485 if (lurbp) 

486 return NULL; 

487 

488 memset((void *)urbp, 0, sizeof(kurbp)); 
489 

490 urbp~>inserttime = jiffies; 

491 urbp->urb = urb; 

492 

493 INIT LIST HEAD (&urbp->list) ; 

494 INIT LIST HEAD(&urbp-^urb queue list); 
405 

496 urb-^hepriv = urbp; 

497 

498 return urbp; 

499  ] 


下 面 的 操作 ， 就 取决 于 传输 的 类 型 ， 也 就 是 目标 端点 的 类 型 (1325 fT) 了 。 我 们 先 结合 
usb control msg( ) 的 情景 看 控制 传输 的 调度 ， 以 后 还 旧 再 回 过 来 看 其 他 几 种 传输 。 
控制 传输 是 通过 uhci_submit_control( ) 调 度 和 实现 的 ， 其 代码 在 drivers/usb/uhci.c +: 


[ioctl_scanner( ) > usb control msg( ) > usb_internal_control_msg( ) > usb_start_wait_urb( ) 
> usb_submit_urb( ) > uhci submit urb( ) > uhci_submit_control( )] 


633 /* 

634 * Control transfers 

635 */ 

636 static int uhci_submit_control (struct urb *urb) 

637 d 

638 struct urb priv *urbp = (struct urb priv *)urb-^hcpriv; 

639 struct uhci *uhci = (struct uhci *) urb~>dev—>bus—>hcepriv: 

640 struct uhci td *td; 

641 struct uhci qh *gh; 

642 unsigned long destination, status; 

643 int maxsze = usb maxpacket(urb-^dev, urb-^pipe, usb_pipeout (urb->pipe)) : 
644 int len = urb-^transfer buffer length; 

645 unsigned char *data = urb->transfer buffer; 

646 

647 /* The “pipe” thing contains the destination in bits 8--18 */ 
648 destination = (urb->pipe & PIPE DEVEP MASK) | USB PID SETUP; 
649 

650 /* 3 errors */ 

651 status = (urb->pipe & TD CTRL LS) | TD CTRL ACTIVE | (3 << 27); 
652 

653 /* 

654 * Build the TD for the control request 

655 */ 

656 td = uhci alloc_td(urb->dev) : 
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680 
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683 
684 
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if (!td) 
return —ENOMEM: 


uhci add td to urb(urb, td); 
uhci fill td(td, status, destination | (7 << 21), 
virt to bus(urb-^setup packet)):; 


/* 

* If direction is “send”, change the frame from SETUP (0x2D) 
* to OUT (OxE1). Else change it from SETUP to IN (0x69). 

*/ 

destination “= (USB PID SETUP ^ usb_packetid(urb->pipe)) ; 


if (!(urb-^transfer flags & USB DISABLE, SPD)) 
status |- TD CTRL SPD; 


/* 
* Build the DATA TD' s 
*/ 
while (len > 0) | 
int pktsze - len; 


if (pktsze > maxsze) 
pktsze - maxsze; 


td = uhci_alloc_td(urb->dev) ; 
if (!td) 
return —ENOMEM; 


/* Alternate Data0/1 (start with Datal) */ 
destination = 1 «€ TD TOKEN TOGGLE; 


uhci add td to urb(urb, td); 
uhci fill td(td, status, destination | ((pktsze - 1) << 21), 
virt to bus(data)); 


data *- pktsze; 
len -- pktsze; 


j 


/* 
* Build the final TD for control status 
*/ 
td = uhci alloc td(urb-^dev); 
if (tid) 
return —ENOMEM; 


/* 
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705 * It’s IN if the pipe is an output pipe or we're not expecting 
706 * data back. 

707 */ 

708 destination &= “TD PID; 

709 if (usb_pipeout (urb->pipe) || !urb-^transfer buffer length) 
710 destination |- USB PID IN; 

111 else 

112 destination |- USB PID OUT; 

713 

714 destination |= 1 << TD TOKEN TOGGLE; /* End in Datal */ 
715 

716 status &- ~TD CTRL SPD: 

717 

718 uhci add td to urb(urb, td); 

719 uhci fill td(td, status | TD CTRL IOC, 

120 destination ; (UHCI NULL DATA SIZE << 2D, 0); 

721 

722 qh = uhci_alloc_gh(urb->dev) ; 

723 if (!qh) 

724 return -ENOMEM; 

725 

726 /* Low speed or small transfers gets a different queue and treatment */ 
727 if (urb->pipe & TD CTRL LS) { 

128 uhci insert tds in gh(gh, urb, 0); 

129 uhei insert gh(uhci, &uhci-^skel ls control gh, gh); 
730 } eise { 

731 uhci insert tds in qh(gh, urb, 1); 

732 uhci insert gh(uhci, &uhci->skel_hs control gh, gh); 
733 uhci inc fsbr(uhci, urb); 

734 } 

735 

736 urbp->qh = qh; 

137 

738 uhei_add_urb list (uhci, urb); 

139 

740 return -EINPROGRESS; 

7M] 


REBT PE Sr Ip APER EH PAS 36 ERM. 8 — T ^c B Je d EBORE USB 总 线 控制 器 向 目标 设备 的 控 
制 端点 发 送 一 个 SETUP 报 文 ， 这 就 是 所 谓 的 SETUP 阶段 。 然 后 ， 根 据 需 要 传输 的 数据 量 大 小 而 有 一 
个 或 儿 个 数据 交互 ， 每 个 交互 传递 一 个 DATA 报 文 ， 传 递 的 方向 既 可 以 是 输出 也 可 以 是 输入， 这 就 是 
数据 阶段 。 不 过 ， 如 果 没 有 数据 就 不 需要 传送 DATA GR. 最后， 还 要 有 … 个 状态 交互 ， 让 DATA R 
文 的 接收 者 疝 对 方 发 送 一 个 状态 报 文 ， 确 认 对 SETUP 报 文 或 DATA 报 文 的 接收 ， 这 就 是 状态 阶段 。 这 
样 ， 最 少 是 两 个 交互 ， 遂 常 则 是 三 个 交互 。 交 壮 是 USB 控制 器 的 执行 单位 。 每 个 交互 都 由 一 个 uhci td 
数据 结构 代表 ， 我 们 已 经 在 前 面 看 到 过 uhci_td 数据 结构 的 定义 。 如 前 所 述 ，uhci_td 数据 结构 中 的 前 4 
个 32 位 长 字 是 为 USB 控制 器 的 硬件 准备 的 ， 实 际 上 相当 于 4 个 寄存 器 ， 作 用 分 别 如 下 : 


- 518 . 


8l 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 


H, SETUP fa AKA 8 hE 《7 十 1)。 


#5 #4), urb->setup_packet 就 指向 这 个 结构 。 
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结构 或 uhci_gh 结构 的 物理 地 址 。 其 低 4 位 则 为 标志 位 ， 其 中 bit0 为 1 表示 链接 的 终结 ，bit1 
为 1 表示 指针 所 指 为 队列 头 ， 即 uhci_qh 结构 ， 否 则 为 uhci_td 结构 。 至 于 bit2， 则 为 1 时 表 


示 纵 向 执行 ， 为 0 时 表示 横向 执行 。 


(2) status。 相 当 于 “控制 /状态 寄存 器 ”。 其 中 的 TD_CTRL_ACTIVE 状态 位 起 着 特殊 的 作用 ， 为 
1 时 表示 等 待 执 行 ， 为 0 时 则 表示 已 经 执行 。 此 外 ， 寄 存 器 中 还 有 个 重 发 次 数位 段 ， 表 未 在 
出 错 的 情况 下 允许 重 发 几 次 。 代 码 中 〈651 行 ) 把 重 发 次 数 设 置 成 3。 USB 控制 器 在 每 一 次 
出 错 重 发 时 都 把 这 个 计数 减 1， 如 果 达 到 了 0 哆 认为 彻底 失败 了 。 

(3) info. WAT *(r4 A ERU. HAAR AMINA Ate, SEES Lei token 信人 包 的 主体 。 

(4) ”buffer。 相 当 于 “缓冲 区 地 址 寄存 器 ”， 指 向 发 送 /接收 数据 的 缓冲 区 。 

每 个 信和 包 的 头 部 都 包含 着 一 个 8 fum “RRS” PID, RM RAHA. SETUP 信息 的 

PID Wit USB PID SETUP, X F include/linux/usb.h: 


/* 


* USB Packet IDs (PIDs) 


*/ 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
define 
#define 
#define 
#define 
#define 
#define 
#define 


USB PTD UNDEF 0 


USB PTD OUT 
USB PTD ACK 
USB PID DATAO 
USB PID PING 
USB PID SOF 
USB PID NYRT 
USB PID DATA2 
USB PID SPLIT 
USB PID IN 
USB PlD NAK 
USB PID DATAI 


USB PID PREAMBLE 


USB PID ERR 

USB PID SETUP 
USB PID STALL 
USB PID MDATA 


OxfO 

Oxel 

0xd2 

Oxe3 

Oxb4 /* USB 2.0 */ 
0xab 

0x96 /* USB 2.0 x/ 
0x87 /* USB 2.0 */ 
0x78 /* USB 2.0 */ 
0x69 

0x5a 

Ox4b 

Ox3c /* Token mode */ 
Ox3c /* USB 2.0: handshake mode */ 
Ox2d 

Oxle 

OxOf /* USB 2.0 */ 


这 些 定义 来 日 USB 的 规格 书 ， 其 中 有 些 是 为 USB 2.0 定义 的 。 

代码 中 先 为 SETUP 交互 分 配 一 个 uhci td 数据 结构 (656 行 )， 同 时 还 要 为 报 文 准备 下 destination 
和 status 两 个 32 位 字段 。 前 者 用 于 “命令 寄存 器 ” 其 内 容 就 是 token 信人 包 的 主体 ， 包 含 着 父 恕 对 和 象 的 
地 址 和 端点 号 ， 还 有 SETUP 信和 包 的 PID, Bl USB_PID_SETUP。 此 外 ， 信 和 的 长 度 也 组 装 在 这 个 长 学 


对 十 SETUP 交互 ， 要 发 送 的 报 文 是 对 目标 设备 的 操作 命令 ， 这 就 是 前 面 准备 好 的 devrequest 数据 


如 上 所 述 , “控制 /状态 寄存 器 ”中 的 TD_CTRL_ACTIVE 状态 位 起 着 特殊 的 作用 ， 张 动 软 件 在 调 
E 个 交互 请 求 时 将 这 一 位 设 成 1， 表示 这 是 个 待 执行 的 “活跃 ”交互 ;而 USB 控制 器 ， 则 在 完成 了 
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该 次 父 互 以 后 《或 成 功 ， 或 彻 诺 失 败 ) 就 将 这 AUK OO. ORE, Shae YESH +S uhci td 数据 
结构 ， 发 现 某 个 uhci_td 数据 结构 的 TD_CTRL_ACTIVE 位 人 变 成 了 0， 就 说 明 这 个 作 互 已 经 完成 。 

分 配 了 一 个 uhci td 数据 结构 以 后 , 就 通过 uhci_add_td_to_urb( ) 把 它 链 入 urb_priv 结构 中 的 交互 描 
述 块 队列 (660 行 )， 并 通过 inline FR AE uhci_fill_td( ) 设 置 uhci_td 结构 中 的 儿 个 重要 字段 〔 见 前 )。 这 
样 ， 就 相当 于 设置 好 了 USB 控制 器 的 4 个 寄存 器 。 数 据 信 和 包 的 内 容 来 白 缓 冲 区 urb->setup_packet， 交 
互 描述 块 中 的 字段 buffer 设置 成 缓冲 区 的 物理 地 址 ， 在 发 送 数据 信和 包 时 ，USB 控制 器 就 通过 DMA 从 
这 个 缓冲 区 中 读 瞩 数据。 准备 好 了 AHER, WME uhci add td to urb( )， 将 其 挂 入 传输 请 求 即 


urb 结构 内 的 队列 中 (实际 上 龙 在 urb. priv 结构 内 )。 这 个 晤 数 的 代码 在 drivers/usb/uhci.c P: 


Lioctl_scanner( ) > usb, control msg( ) > usb_internal_control_msg( ) > usb_start_wait_urb( ) 
> usb. submit urb( ) > uhci submit urb( ) > uhci_submit_control( ) > uhci_add_td_to_urb( )] 


501 static void uhci add td to urb(struct urb *urb, struct uhci td #td) 
502 { 


503 struct urb priv *urbp - (struct urb priv *)urb >hepriv; 
504 

505 td->urb = urb; 

506 

507 list add tail(&td-^list, &urbp >1ist) ， 

508 } 


至 此 ， 忆 经 为 控制 传输 的 第 一 阶段 ， 即 SETUP 阶段 准备 好 了 需要 传输 的 报 文 。USB 控制 器 在 执行 
时 将 肯 先 通过 token (HUE USB 总 线 上 发 布 一 个 通告 ， 说 明 传 输 的 类 型 (控制 )、 交 互 的 对 象 (扫描 器 的 
控制 端点 )、 信 和 包 的 种 类 (SETUP)。 然 后 ， 就 会 把 前 面 准 备 好 的 devrequest 数据 结构 作为 SETUP 信和 包 ， 
到 第 一 阶段 的 数据 发 送出 大。 这 个 信和 包 的 内 容 告 诉 扫 描 器 想 此 干什么， 例如 对 扫描 器 内 的 哪 一 个 寄存 
器 进行 何 种 操作 。 由 寺 具 体 的 寄存 堪 弟 几 扫 描 器 的 制造 尚 定义 的 ， 这 些 内 容 对 于 USB 总 线 是 透明 的 。 
而 扫描 器 ， 则 在 接收 到 这 个 SETUP fs t be SEA IBI ACK 信和 包 加 以 确认 。 

如 果 所 要 求 的 操作 第 要 有 附加 的 数据 传递 ， 贫 有 DATA 报 文 要 传送 ， 但 是 其 类 型 不 再 是 
USB_PID_SETUP， 而 是 USB PID IN Ek USB PID OUT 了 。 所 以 一 方面 把 destination 中 的 
USB PID SETUP 去 除 ， 另 一 方面 根据 所 用 的 管道 确定 是 USB_PID_IN 还 是 USB_PID_OUT。 这 里 的 
ZEE usb_packetid( xE XF include/linux/usb.h: 


706 #define usb_packetid(pipe) (((pipe) & USB DIR IN) ? USB PID IN : USB PID OUT) 


TE SETUP 报 文 以 后 有 几 个 DATA 信和 包 取 决 丁 数据 量 和 允许 的 信和 包 大 小 。 当 有 和 多 个 DATA 信和 包 需 要 
传送 时 ， 需 要 给 每 个 信和 包 编 上 序 与 ， 使 接收 方 能 知道 是 否 丢 失 了 信和 包 。 为 此 目的 ， 在 DATA 信和 包 的 头 
部 采用 了 个“ 进 制 位 作为 序号 ， 其 位 置 为 TD_TOKEN_TOGGLE， 科 (调度 ) 发 送 一 个 信和 包 就 将 这 
一 位 翻转 一 次 (687)， 使 序号 为 0 与 为 1 的 DATA 信和 包 相 间 。 因 此 ，DATA 信息 又 可 以 分 成 DATAO 和 
DATAI 两 种 。 如 果 接 收 方 连续 收 到 两 个 序号 相亲 的 仿 包 ， 就 知道 一 定 是 天 失 了 futu. UA XE 
ELEM SR BOE X ABA Bm T. 

Jude X “IRA” tatus) Hs. BERTRANA. ATLL, Ue eg OR, 
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是 输出 ， 那 么 确认 信和 包 就 应 该 由 设备 向 主 机 发 送 ， 所 以 对 主机 而 言 是 USB_PID_IN。 或 者 ， 如 果 根 本 
就 没有 数据 信和 包 ， 浊 也 应 该 是 USB_PID_IN; 否则 就 是 USB_PID_OUT。 此 外 ， 懈 认 信 和 包 的 序号 总 症 1 
(714 行 )， 没 有 数据 部 分 (720 行 )， 也 不 需要 检测 信和 包 的 长 度 。 由 十 状态 交互 是 控制 传输 中 的 最 后 一 
个 交互 ， 这 里 (719 行 ) 还 把 标志 位 TD_CTRL_IOC beak 1, 表示 这 个 交互 完成 后 要 向 CPU 发 出 -个 由 断 
请 求 。 注 意 不 要 将 状态 交互 与 握手 信和 包 相 混淆 ， 状 态 人 交互 同样 包括 传令 、 数 据 和 握 于 二 个 信和 包 的 传递 。 
这 样 ， 一 个 传输 的 所 有 交互 描述 块 就 都 手 入 了 urb 数据 结构 内 的 队列 中 。 可 是 ， 这 并 不 是 最 终 的 
日 的 ， 最 终 的 目的 是 柴 挂 入 USB 总 线 的 调度 队列 中 。 可 赴 ， 这 里 有 个 问题 。USB 总 线 的 调度 队列 是 优 
USB 控制 器 厂 件 在 “执行 ”时 使 用 的 ， 链 接 指 针 必 须 采 用 物理 地 址 。 可 是 ， 采 用 了 物理 地 址 ，CPU 就 
不 能 顺 着 链接 指针 依次 访问 队列 中 的 各 个 成 分 了 。 反 过 来 ， 如 果 要 考虑 CPU 的 访问 以 及 队 询 操作 ， 束 
要 采用 虚拟 地 址 ， 而 若 采 用 了 虚拟 地 址 ，USB 控制 器 硬件 就 不 能 顺 着 链接 依次 执行 了 。 对 于 共有“ 智 
能 DMA” 功 能 的 设备 ， 这 是 个 上 共同 的 问题 。 解 决 的 办 法 是 让 采用 虚拟 地 址 种 物理 地 址 的 链接 手段 在 数 
所 结构 中 同时 并 存 。 所 以 ， 在 uhci_td 数据 结构 的 设计 中 就 考虑 到 了 这 两 方面 的 需要 。 里 向 由 有 常规 的 
(虚拟 地 址 ) 队 列 头 list, ib CPU 可 以 对 uhci td 数据 结构 进行 常规 的 队列 操作 ;又 有 借 件 所 需 的 物理 地 
址 指针 jink。 前 面 的 uhci add td to urb( ) 已 经 将 所 有 的 uhci_td 数据 结构 通过 它们 的 队列 头 list 连 成 了 
常规 的 队列 ， 下 面 就 要 再 将 这 些 uhci_td 数据 结构 通过 物理 地 址 指针 link 链接 起 来 。 另 一 方面 ， 控 制 伟 
输 是 作为 一 个 整体 , 即 以 uhci_qh 数据 结构 为 队列 头 的 交互 描述 块 队列 挂 入 调度 系统 的 , 所 以 先 昌 通过 

uhci_alloc_gh( ) 为 之 分 配 一 个 uhci_gh 数据 结构 作为 队列 头 部 。 其 代 公 上 见 drivers/usb/uhci.c. 





[usb control msg( ) > usb_internal_control_msg( ) > usb start. wait urb( ) > usb_submit_urb( ) 
> uhci submit urb( ) > uhci. submit, control( ) > uhci_alloc_qh( )] 


302 static struct uhci qh *uhci_alloc_qh(struct usb_device *dev) 
303 | 


304 struct uhci gh *qh; 

305 

306 gh = kmem cache alloc(uhci gh cachop, in interrupt( ) ? 
SLAB ATOMIC : SLAB KERNEL); 

307 if (tq 

308 return NULL; 

309 

310 gh->element = UHCI PTR TERM; 

311 gh->link = UHCI PTR_TERM; 

312 

313 qh->dev = dev; 

314 qh->prevgh = qh->nextqh = NULL; 

315 

316 INIT. LIST IIEAD(&gh-^remove list); 

317 

318 usb inc dev use(dev); 

319 

320 return qh; 

321 } 
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然后 ， 就 要 看 对 方 是 低速 设备 还 是 全 速 设备 了 ， 因 为 二 者 在 uhci 数据 结构 中 有 不 同 的 控制 交互 队 
列 。 不 过 ， 二 者 的 操作 基本 上 是 相同 的 ， 我 们 在 这 里 只 是 看 全 速 设 备 的 情景 。 首 先 ， 通 过 
uhci insert tds in qh( ) 将 所 有 的 uhci_td 数据 结构 通过 物理 地 址 链接 成 一 个 队列 , 而 上 面 分 配 的 uhei_gh 
数据 结构 就 是 队列 的 水 。 这 个 函数 的 代 个 在 drivers/usb/uhci.c F: 


[usb_control_msg( ) > usb, internal, control, msg( ) > usb_start_wait_urb( ) > usb_submit_urb( ) 
> uhci submit urb( ) > uhci_submit_control( ) > uhci_insert_tds_in_gh( )] 


252 
253 
254 
255 


256 
257 
258 
259 
260 
261 
262 
263 
264 
265 
266 
267 
268 
269 
270 
271 
212 
213 
2(4 
219 
276 
211 
218 
219 
280 
281 
282 
283 
284 
280 
286 
281 
288 
289 


/* 
* Inserts a td into gh list at the top. 


static void uhci insert tds in qh(struct uhci_gh *gh, struct urb *urb, 


{ 
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int breadth) 
struct list head *tmp, *head; 
struct uhci td *td, *prevtd; 


if (turbp) 
return; 


head = &urbp— list; 
tmp - head->next; 


return; 
td = list entry(tmp, struct uhci td, list); 


/* Add the first TD to the QH element pointer */ 
qh-^element = virt to bus(td) | (breadth ? 0 : UHCI PTR DEPTH); 


prevtd - td; 

/* Then link the rest of the TD's */ 

tmp = tmp->next; 

while (tmp != head) { 
td = list entry(tmp, struct uhci td, list); 
tmp = tmp->next: 


prevtd—^link = virt to bus(td) | (breadth ? 0 : UHCI PTR DEPTH); 


prevtd - td; 


prevtd->link = UHCI PTR TERM; 
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在 uhci_qh 结构 中 有 两 个 采用 物理 地 址 的 指针 。 一 个 是 link, 用 于 队列 之 间 的 链接 ， 称 为 横向 链接 ; 
另 一 个 则 是 element， 指 向 本 队列 中 的 第 一 个 uhci td 结构 ， 这 是 纵向 链接 。 从 代码 中 可 见 ， 首 先 将 队 
列 头 的 指针 element 设 置 成 第 一 个 uhci_td 结构 的 物理 地 址 ,然后 就 依次 使 各 个 uhci_td 结构 中 的 指针 link 
设置 成 下 一 个 uhci_td 结构 的 物理 地 址 。 不 过 ， 无 论 是 uhci qh 结构 还 是 uhci td 结构 的 地 址 都 是 与 16 
字 节 边界 对 齐 的 ， 所 以 这 些 指针 中 的 低 4 位 都 可 以 用 作 控 制 位 。drivers/usb/usb-uheih 中 定义 了 这 些 控 
制 位 ; 


72 #define UHCI PTR BITS 0x000F 
73 #define UHCI PTR TERM 0x0001 
74 #define UHCI_PTR_QH 0x0002 
75 #define UHCI_PTR_DEPTH 0x0004 


其 中 之 一 就 是 UHCI_ PTR_DEPTH， 定 义 为 4， 即 bit2。 当 这 个 控制 位 为 1 时 ， 表 示 USB 控制 器 在 
执行 时 应 该 深度 优先 , 即 纵向 执行 ; 否则 即 为 宽度 优先 , 即 横向 执行 .所 以 , 对 于 低速 设备 因 参 数 breadth 
为 0 而 纵向 执行 ， 对 全 速 设备 则 参数 breadth 为 1 而 横向 执行 。 此 外 ， 队 列 中 最 后 一 个 uhci_td 结构 的 

KE link 设置 成 UHCI_PTR_TERM， 就 是 地 址 为 0， 而 最 低位 ( 称 为 “T” 位 ) 为 1， 表 示 队 列 已 经 到 了 
末尾 。 还 有 一 位 ， 即 UHCI_PTR_QH， 则 表示 所 指向 的 是 uhci_qh 结构 还 是 uhci_td 结构 。 

我 们 已 经 建立 起 了 - -个 以 uhci_gh 结构 为 头 、 通 过 物理 地 址 链接 的 uhci td 结构 队列 ， 但 这 只 是 个 
游离 于 USB 总 线 调度 系统 以 外 的 队列 ， 下 一 步 要 通过 uhci_insert_qh( ) 把 这 个 队列 插入 USB 总 线 调度 
系统 的 队列 。 对 于 全 速 设备 就 是 插 在 uhci->skel_hs_control_qh 中 ， 其 代码 见 drivers/usb/uhci.c: 


[usb_control_msg( ) > usb_internal_control_msg( ) > usb start wait urb( ) > usb submit, urb( ) 
> uhci. submit. urb( ) > uhci, submit, control( ) > uhci, insert. qh( )] 


331 static void uhci insert qh(struct uhci *uhci, struct uhci qh *skelqh, 
struct uhci gh *qh) 


332 { 

333 unsigned long flags; 

334 

335 spin lock irqsave(&uhci-^framelist lock, flags); 
336 

337 /* Fix the linked list pointers */ 

338 qh->nextąh = skelqh-2nextqh; 

339 gh->prevgh = skelgh; 

340 if (skelqh-^nextqh) 

341 skelgh->nextqh->prevgh = qh; 

342 skelqh->nextgh = gh; 

343 

344 gh->link = skelqh->link; 

345 skelqh—->link = virt to bus(gh) | UHCI PTR QH; 
346 

347 spin unlock irgrestore(&uhci-^»framelist lock, flags); 
348 ] 
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参数 skelqh 指向 USB 总 线 调度 系统 中 的 -个 节点 ， 这 个 节点 本 身 也 在 一 个 队列 中 ， 而 挂 入 这 个 节 
氮 的 数据 结构 又 是 队列 头 ， 即 代表 着 整个 控制 传输 的 交 王 请求 队列 。 所 以 ， 节 点 skelqh 所 在 的 队列 是 
一 个 队列 的 队列 ， 因 此 称 之 为 “骨架 ”(skeleton)。USB 的 调度 系统 中 有 两 个 骨架 ， 一 个 是 中 断交 互 请 
求 队列 的 骨架 ， 另 个 就 是 控制 (以 及 成 块 ) 传 输 请 求 队列 的 骨架 。 另 一 个 参数 qh， 则 指向 为 具体 传输 
请 求 建立 起 米 的 交互 请 求 队列 。 辣 样 ，uhci_qh 结构 也 与 USB 控制 器 硬件 的 操作 有 关 ; 所 以 也 是 既 有 
末 用 虚拟 地 址 的 链接 指针 nextqh 和 prevqh， 也 有 采用 物理 地 址 的 链接 指针 link. 全 于 具体 的 队列 操作 ， 
对 于 读者 已 经 很 简单 了 。 这 样 ， 代 表 着 本 次 传输 的 队列 就 链 入 了 USB 总 线 的 调度 系统 中 。 

回 到 uhci_submit_control ) 的 代码 中 ， 对 于 全 速 设备 ， 由 于 是 横向 执行 ， 还 要 调用 一 个 函数 
uhci inc fsbr( ), 使 uhci 结构 中 的 skel_term_qh, HI skelqh[3] 的 指针 link, 指向 uhci->skel_hs_control_gh. 
其 代码 在 drivers/usb/uhci.c "P: 


[usb control msg( ) > usb internal control msg( ) > usb start, wait, urb( ) > usb, submit urb( ) 
> uhci submit urb( ) > uhci submit control( ) > uhci, inc. fsbr( )] 


563 static void uhci inc fsbr(struct uhei *uhci, struct urb *urb) 
564 { 


565 unsigned long flags; 
566 struct urb priv *urbp = (struct urb priv *)urb->hepriv: 
561 
568 if (lurbp) 
569 return; 
510 
571 spin lock irqsave(&uhci-^framelist lock, flags); 
512 
573 if ((!(urb->transfer flags & USB NO FSBR)) && (lurbp-»fsbr)) { 
574 urbp->fsbr = I; 
575 if (luhci->fsbr++) 
576 uhci-^skel term qh. link = 
virt_to_bus (&uhci->skel_hs_control qh) | UHCI PTR QH: 
577 } 
578 
579 spin unlock irqrestore(&uhci-^framelist lock, flags); 
580 } 


BASIS. skel_term_gh 是 整个 调度 系统 的 终点 ， 当 USB 控制 器 执行 到 skel term qh it, HPA 
执行 本 来 已 经 结束 ， 可 以 等 待 下 一 个 框架 的 开始 了 。 可 是 ， 全 速 设备 的 控制 交互 队列 是 横向 执行 的 ， 
每 次 只 从 队列 中 执行 一 个 交互 便 转 入 下 一 个 队列 ,所 以 很 可 能 一 方面 还 有 交 占 在 等 待 执行 ， :方面 USB 
控制 器 却 已 经 空闲 。 既 然 如 此 ， 何 不 回 过 头 米 再 执行 全 速 设备 的 控制 传输 队列 ? 在 前 面 alloc. uhci( ) 的 
代码 中 (2229 4T), uhci 结构 中 的 成 块 传输 队列 头 skel bulk qh 的 指针 link 已 经 设置 成 指向 
uhci->skel_term_gh; 驶 站 说 ， 在 执行 完 优先 级 最 低 的 成 块 传输 队列 以 后 ， 如 果 本 框架 中 还 有 空闲 时 间 ， 
就 转 到 “终结 ”队列 头 skel_term_qh。 如 果 这 个 节点 是 终点 ， 那 么 本 框架 中 剩余 的 时 间 就 放弃 了 ，USB 
控制 器 在 这 段 时 间 中 “从 转 ” 等 待 下 一 个 框架 的 开始 。 但 是 ， 如 果 让 skel term qh 回 过 头 米 链接 到 
skel_hs_control_qh， 则 可 以 在 剩余 的 时 间 中 再 同 过 来 执行 控制 传输 队列 ， 上 由 至 框架 中 剩 下 的 时 间 凯 不 
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足以 完成 一 次 交互 时 为 止 。 当 然 ， 这 只 有 在 存在 着 采用 横向 执行 的 控制 传输 时 才 有 意义 。 这 里 函数 名 
(以 及 字段 名 ) 中 的 “fsbr” 表 示 “ 企 速 设备 带宽 回收 ”(Full Speed Bandwidth Reclamation)。 如 果 一 个 
(全 速 设备 的 》 传输 请 求 没有 明确 表示 不 要 FSBR， 就 将 其 fsbr 字段 设 成 1， 并 使 uhci 结构 中 的 计数 器 
fsbr 加 1， 表 示 这 个 机 制 多 了 一 :个 用 户 。 如 采 原 来 这 个 计数 器 是 0 就 将 skel_term_qh 反 过 来 链接 到 
skel hs control qh. 

最 后 ， 通 过 uhci add urb list( ) 把 urb 结构 链 入 uhei 结构 的 urb. list. 

至 此 ，uhci_submit_control( ) 的 操作 已 经 完成 ，CPU 经 uhci_submit_urb( )i&[F] 2! usb_submit_urb( )， 
并 进而 返回 到 usb_start_wait_urb( ) 的 代 介 中， 在 那里 进入 睡眠 (1019 fT). 

如 前 所 述 ，USB 控制 器 在 每 个 时 间 框 染 中 都 从 等 时 父 开 队列 开始 执行 ， 然 后 是 中 断 父 二 。 这 两 种 
周期 性 传输 ( 交 孔 ) 所 占 的 时 间 合 在 一 起 不 超过 一 个 框架 的 90%, 所 以 在 执行 完 中 断交 互 以 后 总 趾 还 有 有 一 
些 时 间 可 以 用 来 执行 控制 传输 ， 然 后 才 是 成 块 传输 。 

具体 执行 时 ，USB 控制 器 因 交 互 请 求 链 入 队列 的 方式 而 有 不 同 的 处 理 。 我 们 在 前 而 看 到 , 控制 (以 
及 成 块 ) 交互 描述 块 总 是 在 其 所 属 传输 的 队列 中 《〈 指 采用 物理 地 址 的 队列 ， 下 同 )， 都 有 个 队列 描述 块 
(uhci_qh 结构 )。 我 们 称 这 样 的 队列 为 有 头 队列 ， 并 称 有 头 队列 内 的 交互 请 求 是 处 于 一 个 “ 队 旭 上 下 又 ” 
中 。USB 控制 器 在 其 内 部 维持 一 个 执行 堆栈 ， 每 碰 到 -个 队列 描述 鼎 斌 知道 进入 了 一 个 新 的 队列 上 下 
文 ， 离 开 该 队列 时 就 回 到 了 此 前 的 上 下 文 。 相 比 之 下 ， 等 时 交互 的 队 记 是 没有 队列 头 的 ， 中 崭 交 互 的 
队列 也 没有 队列 涉 ， 所 以 等 时 交互 和 中 断交 妃 都 不 在 队列 上 下 文中 。 对 于 在 队列 上 下 文中 的 交互 (请 
R) USB 控制 器 在 每 执行 完 “个 交互 以 后 就 自动 改变 队列 关中 的 指针 element, ER "EE" TRIRIBA 
列 中 的 下 个 交互 。 从 而 ， 原 来 在 队列 最 前 而 的 交互 ， 就 是 刚 执 行 完毕 的 交互 ， 就 从 队列 中 脱 记 了 出 
来 。 所 以 ，USB 控制 器 在 队列 上 下 文中 总 是 执行 由 指针 element 所 指 的 交互 ， 称 为 队列 的 “顶部 ”。 相 
EZF, dmm USB 控制 占 不 在 队列 上 下 文中 执行 ， 则 在 完成 一 个 交 里 以 后 并 个 “推进 ”指针 《实际 上 
也 没有 指针 可 以 推进 )， 而 只 是 顺 着 链接 指针 执行 队列 中 的 下 一 个 交互 。 央 此 ， 在 这 种 情况 下 并 不 将 已 
经 执行 的 交互 从 队列 中 脱 链 。 可 想 而 知 ， 这 些 交互 请 求 还 留 在 队 询 中 ， 在 下 一 轮 循环 中 《1 秒 钟 以 后 ) 
还 会 得 到 执行 ， 这 就 保 让 了 等 时 交互 和 中 断交 互 的 周期 性 。 

这 里 要 注意 ,“ 完 成 ”当前 交 扎 、 从 而 将 交互 请 求 中 的 TD_CTRL_ACTIVE 标志 位 改 成 0， 并 在 队 
列 上 下 文中 推进 指 外 ， 跟 结束 当前 交互 的 执行 《从 而 开始 另 一 个 交 王 的 执行 或 着 始 空 转 )， 是 不 同 的 概 
念 。 所 谓 完成 -个 交互 是 指 : 完成 了 数据 的 传递 并 得 到 确认 《如 果 是 输出 交互 )， 或 者 连续 发 生 超时 或 
其 他 出 错 ， 使 得 继续 重 发 已 经 失去 意义 。 此 时 USB 控制 器 将 当前 交互 请 求 的 TD_CTRL_ACTIVE s 
位 清 成 0, 并 开始 执行 队列 中 的 下 一 个 交互 请 求 或 转 入 下 一 个 队列 , 如 果 是 在 队列 上 下 文中 则 还 要 推进 
$ 针 。 而 结束 当前 交 研 的 执行 ， 升 始 下 个 交互 请 求 或 下 个 队列 的 执行 ， 则 并 不 取决 丁当 前 交互 的 
完成 。 例 如 ， 如 果 对 方 发 回 一 个 NAK 去 示 斩 时 不 能 完成 所 昌 求 的 传输 〈 如 果 发 生 在 SETUP 交互 中 则 
相当 士 一 次 超时 出 错 )， 或 者 因为 得 不 到 对 方 的 响应 而 超时 ， 或 者 传递 的 过 程 中 出 了 错 《〈 如 CRC 校 验 
出 错 ?， 则 虽然 当前 的 妆 王 并 本 完 成 ， 但 是 对 这 个 交互 的 木 次 执行 也 结束 了 。 不 同 的 是 ， 些 时 不 把 它 的 
TD_CTRL_ACTIVE 标志 位 清 0, 也 不 推进 指针 ,如果 是 因 出 错 而 结束 则 还 要 把 它 的 允许 征 发 次 数 减 1。 
这 样 ， 当 USB 控制 器 下 一 次 执行 到 同 - :队列 、 同 -一 交互 请 求 时 勾 会 再 执行 “次 。 

此 外 ， 和 在 开始 执行 一 个 交 电 之 前 ，USB 控制 器 先 查 判断 是 否 能 在 本 框 扣 内 结束 这 个 交互 ， 如 采 本 
框架 中 剩 下 的 时 间 已 经 不 够 则 宁可 空转 ， 等 下 AMER. 

掠 制 传输 的 最 后 .个 交互 是 状态 交互 。 由 十 这 个 交互 的 TD_CTRL_IOC 标志 位 为 1，USB 控制 器 
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在 这 个 交互 所 在 的 框架 结束 时 就 向 CPU 发 出 一 次 中 断 请 求 。 对 于 UHCI EB, USB 总 线 的 中 断 服务 程 
序 为 uhci_interrupt( )， 其 代码 在 drivers/usb/uhci.c 中 ， 


2023 static void uhci_interrupt (int irq, void *  uhci, struct pt regs *regs) 
2024 { 


2025 struct uhci *uhci = __uhci: 
2026 unsigned int io addr = uhci->io addr: 
2027 unsigned short status; 
2028 unsigned long flags; 
2029 struct list head *tmp, *head; 
2030 
2031 /* 
2032 * Read the interrupt status, and write it back to clear the 
2033 * interrupt cause 
2034 * / 
2035 status = inw(io addr + USBSTS) ; 
2036 if (!status) /* shared interrupt, not mine */ 
2037 return; 
2038 outw(status, io addr + USBSTS); 
2039 
2040 if (status & "(USBSTS USBINT | USBSTS ERROR)) { 
2041 if (status & USBSTS RD) 
2042 printk(KERN INFO ^uhci: resume detected, not implemented\n”): 
2043 if (status & USBSTS HSE) 
2044 printk(KERN ERR “uhci: host system error, PCI problems?\n”): 
2045 if (status & USBSTS HCPE) 
2046 printk(KERN ERR 
"uhci: host controller process error. something bad happened\n’): 
2047 if (status & USBSTS HCH) { 
2048 printk(KERN ERR ^uhci: host controller halted. very bad\n’); 
2049 /* FIXME: Reset the controller, fix the offending TD */ 
2050 } 
2051 } 
2052 
2053 uhci free pending qhs(uhci); 
2054 
2055 spin lock(&uhci-^urb remove lock); 
2056 head = &uhci->urb remove list; 
2057 tmp = head->next; 
2058 while (tmp != head) { 
2059 struct urb *urb = list entry(tmp, struct urb, urb list); 
2060 
2061 tmp = tmp-2next; 
2062 
2063 list del(&urb-^»urb list); 
2064 
2065 if (urb-^complete) 
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2066 urb->complete (urb) ; 

2067 } 

2068 spin_unlock (&uhci-^urb remove lock); 

2069 

2070 uhci clear next interrupt (uhci) ; 

2071 

2072 /* Walk the list of pending TD’s to see which ones completed */ 
2073 nested lock (&uhci—urblist_lock, flags); 

2074 head = &uhci->urb_list; 

2075 tmp = head->next; 

2076 while (tmp != head) { 

2077 struct urb *urb = list_entry(tmp, struct urb, urb_list); 
2078 

2079 tmp = tmp-?^next; 

2080 

2081 /* Checks the status and does all of the magic necessary */ 
2082 uhci transfer result (urb) ; 

2083 } 

2084 nested unlock(&uhci-^urblist lock, flags); 

2085 |] 


首先 读 出 USB 控制 器 的 中 断 状态 寄存 器 ， 并 将 读 出 的 内 容 写 回 该 寄存 器 ， 这 是 典型 的 操作 。 我 们 
先 把 2053 行 至 2069 行 的 代码 暂 搓 一下， 以 后 再 回 过 米 看 。 现 在 先 看 下 面 。 

前 面 讲 过 ，USB 控制 器 在 执行 中 只 要 碰 到 一 个 交互 描述 块 的 TD_CTRL _IOC 标志 位 为 1， 就 会 在 
其 所 在 的 框架 结束 时 向 CPU 发 出 中 断 请 求 。 事 实 上， 即使 是 一 个 不 “活跃 ” 因而 不 需要 执行 的 交互 
描述 块 也 是 一 样 ，USB 控制 器 会 跳 过 这 个 交互 描述 块 ， 但 还 是 会 发 出 中 断 请 求 。 这 样 ， 只 要 将 
skel_term_td 的 TD_CTRL_IOC 标志 位 设 成 1， 就 实际 上 每 一 毫秒 就 会 中 断 一 次 。 现 在 既然 已 经 在 中 断 
服务 程序 中 ， 就 可 以 通过 uhci_clear_next_interrupt( ) 把 这 个 中 断 源 暂 时 关闭 (drivers/usb/uhci.c)。 


[uhci interrupt( ) > uhci_clear_next_interrupt( )] 


135 void uhci clear next interrupt (struct uhci *uhci) 

136 { 

137 unsigned long flags; 

138 

139 spin lock irqsave(&ubci-^framelist lock, flags); 

140 uhci->skel term td.status &- ~TD CTRL_IOC: 

141 spin unlock irqrestore(&uhci-^framelist lock, flags); 
142 } 

143 


对 于 正当 完成 了 操作 的 交互 请 求 ，USB 控制 器 已 经 自动 将 其 从 通过 物理 地 址 链接 的 队列 中 摘除 ， 
因而 已 经 不 青 在 USB 总 线 的 调度 系统 中 。 但 是 , 这 些 数据 结构 还 在 相应 urb 结构 (确切 地 说 是 urb. priv 
结构 ) 中 通过 虚拟 地 址 链接 的 队列 中 ， 而 urb 结构 又 链接 在 相应 USB 总 线 的 urb list H. MENEH 
描 这 个 urb 队列 ， 遂 过 uhci_transfer_result( ) 将 其 中 已 经 完成 了 操作 的 传输 请 求 找 出 来 ， 并 从 队列 中 摘 
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除 ， 再 “ 回 叫 ”预先 为 这 些 传输 安排 好 的 善后 操作 。 这 个 函数 也 是 一 个 通用 的 函数 ， 不 仪 仪 是 为 控制 
Au HER, BASE drivers/usb/uhci.c 中 : 


[uhci, interrupt( ) > uhci transfer result( )] 


1379 /* 

1380 * Return the result of a transfer 

1381 * 

1382 * Must be called with urblist lock acquired 
1383 */ 

1384 static void uhci transfer result (struct urb *urb) 
1385 { 

1386 struct usb device *dev = urb-^dev; 

1387 struct urb *turb; 

1388 int proceed = 0, is ring = Q; 

1389 int ret = -EINVAL; 

1390 unsigned long flags; 

1391 

1392 spin lock_irqsave (&urb->lock, flags); 
1393 

1394 switch (usb pipetype(urb-^pipe)) { 

1395 case PIPE CONTROL: 

1396 ret = uhci result control(urb); 
1397 break; 

1398 case PIPE INTERRUPT: 

1399 ret = uhci result interrupt (urb) ; 
1400 break; 

1401 case PIPE BULK: 

1402 ret - uhci result bulk(urb); 

1403 break; 

1404 case PIPE ISOCHRONOUS: 

1405 ret - uhci result isochronous (urb) ; 
1406 break; 

1407 } 

1408 

1409 urb->status = rel; 

1410 

1411 spin unlock irgrestore(&urb-^lock, flags); 
1412 

1413 if (ret == -ETNPROGRESS) 

1414 return; 

1415 

1416 switch (usb pipetype(urb- pipe)) | 

1417 case PIPE CONTROL: 

1418 case PIPE BULK: 

1419 case PIPE [ISOCHRONOLS : 

1420 /* Release bandwidth for Interrupt or Isoc. transfers */ 
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1421 
1422 
1423 
1424 
1425 
1426 
1427 
1428 
1429 
1430 
1431 
1432 
1433 
1434 
1435 
1436 
1437 
1438 
1439 
1440 
1441 
1442 
1443 
1444 
1445 
1446 
1447 
1448 
1449 
1450 
1451 
1452 
1453 
1454 
1455 
1456 
1457 
1458 
1459 
1460 
1461 
1462 
1463 
1464 
1465 
1466 
1467 
1468 
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/* Spinlock needed ? */ 
if (urb->bandwidth) 


uhci 


usb release bandwidth(urb >dev, urb, 1); 


_unlink generic (urb) ; 


break; 
case PIPE INTERRUPT: 


/* J 


nterrupts are an exception */ 


if (urb-^interval) | 


} 


/* Release bandwidth for Interrupt or Isoc. transfers */ 


urb->complete (urb) ; 
uhci reset interrupt (urb) ; 
return; 


/* Spinlock necded ? */ 


ii l 


urb->bandwidth) 
usb release bandwidth(urb-^dev, urb, 0); 


uhci unlink generic (urb); 
break; 
} 
if (urb->next) | 
turb = urb-»next; 
do { 


} while (turb && turb != urb && turb !- urb->next); 


if ¢ 
} 
if (urb- 
urb- 
if ( 
} 
if (proc 
turb 
do { 


if (turb->status !- -EINPROGRESS) { 
proceed = 1; 
break; 


turb = turb->next: 


turb == urb |: turb == urb->next) 
is ring = 1; 


>complete && '!proceed) | 
>complete (urb); 

'procced && is ring) 
uhci submit urb(urb); 


eed && urb-»nexti) | 
= urb-?nexl; 


if (turb—^status ‘= -ETNPROGRESS && 
uhci submit urb(turb) != 0) 
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1469 turb = turb—next; 

1470 } while (turb && turb != urb->next); 

1471 

1472 if (urb complete) 

1473 urb-»complete (urb); 

1474 } 

1475 

1476 /* We decrement, the usage count after we're done with everything */ 
1477 usb dec dev use(dev); 

1478 ] 


参数 urb 指向 链接 在 urb list 中 的 一 个 urb 数据 结构 。 显 然 ， 对 于 控制 人 交互 首先 要 对 其 调用 
uhci result control( )， 这 个 淫 数 的 代码 也 在 drivers/usb/uhci.c 中 : 


[uhci interrupt( ) > uhci transfer. result( ) > uhci result control( )] 


745 static int uhci_result_control (struct urb *urb) 


746 { 

747 struct list head *tmp, *head; 

748 struct urb priv *urbp = urb-^hcpriv; 
749 struct uhci td *td; 

150 unsigned int status; 

151 int ret = 0; 

752 

753 if (!urbp) 

754 return -EINVAL; 

155 

756 head = &urbp->list; 

757 if (head->next == head) 

758 return -EINVAL; 

759 

760 if (urbp->short control packet) | 

161 tmp = head >prev; 

162 goto status phase; 

763 } 

764 

765 tmp = head-»next; 

766 td - list entry(tmp, struct uhci td, list); 
161 

768 /* The first TD is the SETUP phase, check the status, but skip */ 
769 /* the count */ 

770 status = uhci_status_bits(td->status) ; 
77L if (status & TD_CTRL_ACTTVE) 

112 return -EINPROGRESS; 

773 

774 if (status) 

775 goto td_error; 


- 530 . 


第 8 章 设备 驱动 





776 

TTI urb-»actual length = 0; 

778 

779 /* The rest of the TD's (but the last) are data */ 
T80 tmp = tmp-?next; 

781 while (tmp != head && tmp->next != head) { 

182 td = list entry(tmp, struct uhci td, list); 

783 

184 tmp = tmp-?next; 

785 

786 if (urbp-^fsbr timeout && (td->status & TD CTRL IOC) && 
787 !(td-^status & TD CTRL ACTIVE)) { 

188 uhci_inc_fsbr (urb->dev->bus—>hepriv, urb); 
789 urbp-^fsbr timeout = 0; 

790 td—>status &- "TD CTRL 7OC; 

191 ] 

192 

793 status = uhci status bits(td-^status); 

794 if (status & TD CTRL ACTIVE) 

795 return -EINPROGRESS; 

796 

191 urb-^actual length += uhci actual length(td->status) ; 
198 

799 if (status) 

800 goto td error; 

801 

802 /* Check to see if we received a short packet */ 
803 if (uhci actual length(td->status) < uhci expected length(td-»info)) | 
804 if (urb-^transfer flags & USB DISABLE SPD) { 
805 ret = -EREMOTEIO; 

806 goto err; 

807 } 

808 

809 if (uhci_packetid(td—->info) == USB PID IN) 
810 return usb control retrigger status (urb); 
gil else 

812 return 0; 

813 } 

814 } 

815 

816 status_phase: 

817 td = list entry(tmp, struct uhci_td, list); 

818 

819 /* Control status phase */ 

820 status = uhci status bits(td->status) ; 

82] 


822 #ifdef T HAVE BUGGY APC BACKUPS 


= © © © y 4 
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830 Hondif 


831 

832 if (status & TD CTRL ACTIVE) 

833 return -EINPROGRESS; 

834 

835 if (status) 

836 goto td error; 

837 

838 return 0; 

839 

840 td error: 

841 ret = uhci map status(status, uhci packetout (td->info)); 
842 if (ret == -EPIPE) 

843 /* endpoint has stalled - mark it halted */ 

844 usb endpoint halt(urb-^dev, uhci endpoint (td->info), 
845 uhci packetout (td->info) ) ， 

846 

RAT err: 

848 if (debug && ret !- —EPIPE) { 

849 /* Some debugging code */ 

850 dbg("uhei result control( ) failed with status %x”, status); 
85] 

852 /* Print the chain for debugging purposes */ 

853 uhci show urb queue (urb); 

854 } 

855 

856 return ret; 

857 |] 


控制 传输 有 二 个 阶段 ， 其 中 第 ANRA REA, MARZE RANPE DM ZANAN. 
描述 块 ， 芭 使 而 特殊 的 情况 下 《〈 见 下 ) 42b SURFER Hs ABA A ea T 057 17). 3 
果 urbp->short_control_packet 为 1， 就 说 明 在 传输 中 兽 发 生 接 收 到 小 寺 应 有 大 小 的 信和 包 ， 此 时 本 次 传输 
中 只 剩 下 最 后 一 个 父 妃 ， 即 状态 人 交互 ， 所 以 直接 跳 到 状态 交 电 (762 行 )， 去 检查 其 结果 。 

fer Te BUT TF, USAR PEAS TE A, MURR A PSC BAXSIR. GA I, USB 
i£ PAS SR BUT SG ROL A. ASE SETUP 阶段 的 交互 。 如 时 个 交互 的 状态 位 
TD CTRL ACTIVE 仍旧 是 1!， 那 就 说 明 尚 末 执 行 ; 或 者 执行 失败 了 ， 但 是 失败 的 次 数 还 在 3 次 以 下 ， 
需 葛 冉 重 新 执行 .所 以 返回 一 EINPROGRESS, 表示 还 在 进行 中 (772 行 ),。 反之; 如 果 TD_CTRL_ACTIVE 
已 经 变 成 了 0， 那 就 说 明 至 少 SETUP 阶段 的 人 交互 已 经 完成 了 ， 此 时 车 状态 位 中 有 任何 一 位 为 非 0 EU 
示 出 了 错 (775 行 )。 

下 出， 就 要 通过 一 个 while 循环 检查 数据 阶段 的 各 次 交互 了 。786 行 的 条 件 语句 月 的 在 于 优化 。 如 
果 诛 来 内 为 想 要 回收 每 个 模 架 尾部 的 剩余 时 间 而 将 最 后 一 个 队列 头 链接 到 了 控制 传输 队列 ， 可 是 实际 
LAVAS “ 段 时 间 内 并 没有 起 到 作用 ， 屠 就 说 明 总 线 的 负载 太 大 了 ， 此 时 一 个 由 定时 器 触发 的 阴 
#8 rh. int. timer. do( ) 就 会 将 为 了 回收 利用 剩余 时 间 出 作 的 链接 拆除 (后 面 我 们 还 要 讲 到 这 个 过 程 )， 并 把 
标志 位 fsbr_timeout 设 成 1. 然后 ， 汉 控制 队列 中 的 交 世 请求 得 到 执行 时 ,总 线 的 负载 可 能 已 经 轻 下 来 ， 
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所 以 又 可 以 通过 ubci_inc_fsbr( ) 恢 复 FSBR 链接 了 。 

同样 ， 如 果 交 互 描述 块 中 的 TD_CTRL_ACTIVE 标志 位 为 1 就 表示 交互 尚未 完成 ， 或 者 尚未 彻底 
失败 ， 所 以 返回 -EINPROGRESS。 

如 果 一 个 交互 完成 后 的 数据 小 于 应 有 的 长 度 (803 行 )， 那 就 要 看 具体 的 情况 。 要 是 在 提交 该 人 交互 请 
求 时 把 标志 位 USB_DISABLE_SPD 设 成 1 OXE “SPD” Æ “short packet detect”, WI "i fri inal” 
的 意思 )， 那 就 把 该 次 交互 视 同 失败 ， 所 以 返回 出 错 代码 一 EREMOTEIO。 和 否则 ， 如 果 是 输入 交互 ， 就 
通过 usb control retrigger status( ) 重 新 调度 本 次 传输 ， 使 USB 总 线 的 主 控制 器 重新 执行 ”` 遍 最 后 的 状 
态 交 互 。 这 个 函数 的 代 但 在 drivers/usb/uhci.c 中 : 


Luhci_interrupt( ) > uhci, transfer result( ) > uhci result control( ) > usb, control retrigger status( )l 


859 static int usb control retrigger status (struct urb *urb) 


860 | 

861 struct list head *tmp, *head; 

862 struct urb priv *urbp = (struct urb priv *)urb-^hcpriv; 

863 struct uhci *uhci = urb->dev—>bus—>hcpriv; 

864 

865 urbp-^short control packet = 1; 

866 

867 /* Create a new QI to avoid pointer overwriting problems */ 
868 uhci remove qh (uhci, urbp->qh) ; 

869 

870 /* Delete all of the TD's except for the status TD at the end */ 
871 head = &urbp-»list; 

872 tmp = head->next; 

873 while (tmp !- head && tmp->next != head) 1 

874 struct uhci td *td = list entry(tmp, struct uhci td, list); 
875 

876 tmp = tmp-^2next; 

877 

878 uhci remove td from urb(urb, td); 

879 

880 uhci remove td(uhci, td); 

881 

882 uhci free td(td); 

883 } 

884 

885 urbp->qh = uhci alloc_gh(urb->dev) ; 

886 if (lurbpqh) { 

887 err ("unable to allocate new QH for control retrigger^); 
888 return -ENOMEM; 

889 } 

890 

891 /* One TD, who cares about Breadth first? */ 

892 uhci insert tds in qh(urbp->gh, urb, 0); 

893 
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894 /* Low Speed or small transfers gets a different queue and treatment */ 
895 if (urb->pipe & TD CTRL LS) 

896 uhci insert gh(uhci, &uhci-^5skel ls control gh, urbp->gh) : 

897 else 

898 uhci insert qh(uhci, &uhci-^skel hs control gh, urbp—^qh); 

899 

900 return -EINPROGRESS; 

901  ) 


这 里 的 865 行 把 urbp-»short. control, packet 设 成 上, 并且 另 外 创建 一 个 只 包括 一 个 状态 交互 的 队列 ， 
使 目标 设备 仍 能 得 到 一 个 确认 。 这 就 是 前 面 所 说 特殊 情况 的 来 历 。 

如 果 每 个 数据 交互 都 正常 完成 ， 并 且 最 后 的 状态 交互 也 正常 完成 ，uhcei_result_control( ) 便 返回 0。 

回 到 uhci_transfer_result( ) 的 代码 中 (drivers/usb/uhci.c，1396 行 )， 如 果 从 uhci_result_control( ) 返 回 
的 是 一 EINPROGRESS， 即 传输 尚未 完成 ,就 让 本 次 传输 留 在 所 调度 的 位 置 上 不 变 而 立即 返回 。 否则 就 
要 将 本 次 传输 从 队列 中 脱离 出 来 ， 并 释放 所 占用 的 “带宽 ”， 即 占用 总 线 的 时 间 。 在 4 种 不 同 的 传输 中 ， 
等 时 和 中 断 两 种 是 在 调度 时 需要 事先 为 其 分 配 总 线 带宽 的 ， 这 样 才 能 保证 同一 框架 中 二 者 之 和 不 超过 
90%。 如 果蔬 先 分 配 了 带宽 ， 就 一 方面 记录 在 (本 次 传输 的 )urb 结构 中 的 bandwidth 字段 内 ， 一 -方面 也 
计 入 总 线 的 bus 结构 中 。 对 于 控制 交互 ， 则 虽然 优先 级 别 比 成 块 传输 为 高 ， 却 并 不 需要 预先 分 配 带 宽 ， 
因为 对 成 块 传输 本 来 就 尤 需 保证 其 带宽 ,所 以 , 对 于 控制 交互 实际 上 不 会 调用 usb. release. bandwidth( ). 
但 是 ， 不 管 是 控制 、 上 成 块 还 是 等 时 交 五 ， 都 需要 通过 uhei_unlink_generic( ) 将 其 urb 数据 结构 从 各 个 队 
列 中 脱离 出 来 。 其 代码 在 drivers/usb/uhci.c "P: 


[uhci, interrupt( ) > uhci_transfer_result( ) > uhci_unlink _generic( )] 


1480 static int uhci_unlink generic (struct urb *urb) 


1481 t 

1482 struct urb priv *urbp = urb-^hcpriv; 

1483 struct uhci *uhci = (struct uhci *)urb-^dev-^bus-^hepriv; 
1484 

1485 if (turbp) 

1486 return -EINVAL; 

1487 

1488 uhci dec fsbr(uhci, urb); /* Safe since it checks */ 
1489 

1490 uhci remove urb list(uhci, urb); 

1491 

1492 if (urbp->gh) 

1493 /* The interrupt loop will reclaim the QH's */ 
1494 uhci remove qh(uhci, urbp->gh) ; 

1495 

1496 if (!list empty (&urbp- "urb queue list)) 

1497 uhci delete queued urb(uhci, urb); 

1498 

1499 uhei destroy urb priv (urb): 

1500 
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i er AA———!-——— ————— Á-Á—— — 


1501 urb->dev = NULL; 
1502 

1503 return 0; 

1504 } 


首先 ， 由 于 本 次 传输 的 完成 ， 对 SBR, HIDE PARA A el aT Te) ALC LA, mnl BZ Toc 
个 用 户 ， 所 以 通过 uhci dec fsbr( ) 递 减 有 关 的 计数 ， 如 果 此 后 不 再 需要 此 种 机 制 便 拆除 为 而 此 而 建立 
的 链接 。 然 后 通过 uhci_remove_urb_list( )， 使 本 次 传输 的 usb 数据 结构 脱离 uhci 结构 中 的 队列 。 这 两 
个 函数 的 代码 都 很 简单 ， 我 们 就 不 大 了 。 接 着 ， 如 果 是 以 传输 (而 不 是 交互 ) 为 单位 调度 的 ， 就 此 通过 
uhci_remove_gh( ) 将 uhci_qh 数据 结构 从 队列 中 脱 链 ， 因 为 USB 控制 器 在 执行 的 过 程 中 会 自动 将 交互 
描述 块 脱 链 ， 却 不 会 自动 将 队列 描述 块 脱 链 。 这 个 函数 的 代码 在 drivers/usb/ubci.c 中 : 


[uhci_interrupt( ) > uhci_transfer_result( ) > uhci_unlink_generic( ) > uhci_remove_qh( )] 


350 static void uhci_remove_gh(struct uhci *uhci, struct uhci gh *qh) 
351 { 


352 unsigned long flags; 

353 int delayed; 

354 

355 /* Tf the QH isn't queued, then we don't need to delay unlink it */ 
356 delayed = (qh->prevgh || qh->nextqh) ; 

357 

358 spin lock irqsave(&uhci-^frameiist lock, flags); 

359 if (qh- prevqh) { 

360 gh->prevgh->nextqh = qh->nextgh; 

361 gh->prevgh->link = qh->Link; 

362 } 

363 if (qh->nextqh) 

364 gh-»nextqh-^prevgh = gh->prevgh; 

365 gh->prevgh = qh-?nextqh = NULL; 

366 gh->element = qh->link = UHCI PTR TERM; 

367 spin unlock irqrestore(&uhci-P^framelist lock, flags); 

368 

369 if (delayed) | 

370 spin lock irqsave(&uhci-^qh remove lock, flags); 

311 

372 /* Check to see if the remove list is empty */ 

373 /* Set the IOC bit to force an interrupt so we can remove the QH */ 
374 if (list empty (&uhci->gh_remove_list)) 

375 uhci_set_next_interrupt (uhci) ; 

376 

377 /* Add it */ 

378 list_add(&qh->remove_list, &uhci-^qh remove list); 
379 

380 spin unlock irqrestore(&uhci-^qh remove lock, flags); 
381 ] else 
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382 uhci free gh(qb); 


本 来 ， 将 传输 请 求 从 队列 中 脱 链 以 后 就 可 以 释放 了 。 可 是 ，USB 控制 器 的 执行 与 CPU 控制 器 的 执 
行 契 互相 独立 的 ， 所 以 有 可 能 此 时 USB 控制 器 正 让 这 个 队列 中 ， 所 以 要 先 把 这 个 队列 头 转移 到 一 个 音 
独 的 队列 gh_remove_list 中 ， 让 它 “ 冷 却 ” 一 下 (USB 控制 器 只 能 出 而 不 能 进 )， 等 下 次 中 断 时 再 来 
释放 。 这 就 是 我 们 在 前 而 跳 过 的 uhci_free_pending_qhs( ) 所 作 的 处 理 (drivers/usb/uhci.c)。 


[uhci_interrupt( ) > uhci_free_pending_ghs( )] 


2002 void uhci free pending qhs (struct uhci *uhci) 


2003 { 

2004 struct list head *tmp, *head; 

2005 unsigned long flags; 

2006 

2007 /* Free any pending QH's */ 

2008 spin lock irqsave(&uhci-^gh remove lock, flags); 

2009 head = &uhci-^qh remove list; 

2010 tmp = head->next; 

2011 while (tmp != head) { 

2012 struct uhci qh *gh = list_entry(tmp, struct uhci gh, remove list); 
2013 

2014 tmp = tmp-^next; 

2015 

2016 list del(&gh-^remove list); 

2017 

2018 uhci free qgh(qh); 

2019 } 

2020 spin unlock irqrestore(&uhci-^gh remove lock, flags); 
2021 } 


回 到 uhci unlink generic( ) 的 代码 中 , 如 果 urb, priv 结构 中 的 队列 头 urb. queue. list 非 空 ， 就 说 明 当 
初 提交 传输 请 求 时 与 其 他 (对 同一 设备 同一 端点 的 ) 传输 合并 了 , 所 以 要 通过 uhci_delete_queued_urb( ) 
将 其 脱 链 。 其 代码 在 drivers/usb/uhci.c 中 : 


Luhci_interrupt( ) > uhci_transfer_result( ) > uhci_unlink_generic( ) > uhci_delete_queued_urb( )] 


438 static void uhci delete queued urb(struct uhci *uhci, struct urb *urb) 
439 { 

440 struct urb priv *urbp, *nurbp; 

441 unsigned long flags; 

442 

443 urbp = urb-^hcpriv; 

444 

445 spin lock irqsave(&uhci append urb lock, flags); 

446 
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447 nurbp = list entry (urhp->urb queue list.next, struct urb priv, 
448 urb queue list); 

449 

450 if (!urbp->queued) { 

451 /* We're the head, so just insert the QH for the next URB */ 
452 uhci insert gh(uhci, &uhci->skel_ bulk gh, nurbp->gh) : 

453 nurbp-?queued = 0; 

454 } else { 

455 struct urb priv *purbp; 

456 struct uhci td *ptd; 

457 

458 /* We're somewhere in the middle (or end). A bit trickier */ 
459 /* than the head scenario */ 

460 purbp = list entry (urbp->urb_queue_list. prev, struct urb priv, 
461 urb queue list); 

462 

463 ptd = list_entry(purbp->list. prev, struct uhci td, list); 
464 if (nurbp-»queucd) 

465 /* Close the gap between the two 水 / 

466 ptd->link = virt to bus(list entry (nurbp-^list. next, 
467 struct uhci td, list)); 

468 else 

469 /* The next URB happens to be the beggining, so */ 
470 /* we re the last, end the chain */ 

471 ptd-»link = UHCI PTR TERM; 

472 

413 ) 

414 

415 list del(&urbp-^urb queue list); 

416 

477 spin unlock irgrestore(&uhci append urb lock, flags); 

48 } 


最 后 通过 uhci destroy. urb. priv( ) 释 放 urb. priv 数据 结构 ,包括 队列 中 的 所 有 uhci td 结构 ， 其 代码 
也 在 drivers/usb/uhci.c "P: 


[uhci_interrupt( ) > uhci_transfer_result( ) > uhci unlink generic( ) > uhci_destroy_urb_priv( )] 


523 static void uhci destroy urb priv (struct urb *urb) 


524 { 

525 struct list head *tmp, *head; 

526 struct urb priv *urbp: 

527 struct uhci *uhci; 

528 struct uhci td *td; 

529 unsigned long flags; 

530 

531 spin lock irqsave(&urb-»lock, flags); 
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532 

533 urbp = (struct urb priv *)urb-^hepriv; 

534 if Clurbp) 

535 goto unlock; 

536 

537 if (!*urbdev || !urb->dev->bus || lurb->dev->bus->hcpriv) 
538 goto unlock; 

539 

540 uhci = urb-^dev-»bus-?hepriv; 

54] 

542 head = &urbp-?list; 

543 tmp = head->next; 

544 while (tmp != head) | 

545 td = list entry(tmp, struct uhci td, list); 
546 

547 tmp = tmp-?next; 

548 

549 uhci remove td from urb(urb, td); 

550 

551 uhci remove td(uhci, td); 

552 

553 uhci free td(td); 

554 j 

555 

556 urb—hcpriv = NULL; 

557 kmem cache free(uhci up cachep, urbp) ; 

558 

559 unlock: 

560 spin unlock_irgrestore (&urb->lock, flags); 
561  ] 


回 到 uhci. transfer. result ) 的 代码 中 (drivers/usb/uhci.c，1425 íF), 下 面 有 一 段 特 殊 的 代码 (1442~ 
1474 行 )。 这 段 代 码 主要 是 为 等 时 传输 而 设计 的 ， 但 也 可 以 用 于 成 块 传输 。 

在 传输 的 数据 量 比较 大 ， 又 要 求 在 时 间 上 分 布 得 比较 均匀 时 ， 常 常 采用 “ 双 缓 冲 ” 其 至 多 缓冲 的 
技术 。 例 如 对 于 音频 信号 ， 就 可 以 设置 两 个 缓冲 区 ， 使 这 两 个 缓冲 区 交替 地 用 于 接收 数据 和 处 埋 数据 。 
这 样 可 以 使 整个 流量 趋 于 平均 ， 更 为 “流水 线 化 ”。 具 体 到 USB 总 线 上 的 传输 ， 可 以 为 之 准备 下 两 个 
传输 请 求 ， 即 两 个 urb 结构 ，j 诈 通过 它们 的 指针 next 互相 链接 在 一 起 。 这 样 ， 当 一 :个 传输 完成 ， 因 而 
鉴 将 其 从 调度 系统 中 脱 链 时 ， 便 遂 过 指针 next 找到 其 “配偶 ”， 如 果 人 不 在 调度 系统 中 就 把 它 提交 调 度 。 
这 样 ， 如 果 将 这 上岗 个 传输 中 的 MERE CERT 1/2 秒 ， 而 另 个 老 是 调度 在 后 1/2 秒 ， 就 可 以 使 流量 
比 只 采用 一 个 传输 时 平均 了 。 至 于 一 般 的 传输 ， 则 由 于 其 指针 next 总 是 0， 因 市 代码 中 的 proceed 与 
is_ring 总 是 0， 所 以 不 受 影响 。 

最 后 ， 只 要 为 当前 urb 结构 中 的 函数 指针 complete RET HGH, ME AHAAA BIB 
usb_internal_control_msg() 中 把 这 个 函数 设置 成 usb_api_blocking_completion( ), 所 以 现在 就 调用 这 个 函 
数 。 其 代码 在 drivers/usb/usb.c 中 : 
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[uhci_interrupt( ) > uhci_transfer_result( ) > usb_api_blocking_completion( )] 


978 static void usb api blocking completion (urb t *urb) 


979 { 

980 api wrapper data *awd = (api wrapper data *)urb->context; 
981 

982 if (waitqueue active (awd-^wakeup)) 

983 wake_up (awd—>wakeup) ; 

984 #if 0 

985 else 

986 dbg( (blocking completion): waitqueue empty!”); 
987 // even occurs if urb was unlinked by timeout... 
988 Hendif 

989 } 


对 照 -下 前 面 usb_start_wait_urb( ) 的 代码 ， 就 可 以 看 出 这 里 唤醒 的 止 是 前 面 调用 了 
usb control msg( ) 的 那个 进程 ,这 个 进程 当初 是 通过 schedule_timeout( ) 睡 眠 等 待 (drivers/usb/usb.c, 1019 
行 ) 的 ， 所 以 被 唤醒 的 原因 可 能 有 商 个 ， 湖 内 为 操作 完成 或 者 因为 超时 。 如 果 是 因 超 时 而 被 唤醒 ， 而 传 
输 实际 上 已 经 开始 ， 邦 就 冉 睡眠 。 最 后 ， 被 唤 淖 的 原因 还 是 有 聘 个， 要 么 是 传输 完成 了 或 者 彻底 失败 
了 ， 要 么 是 根本 得 不 到 执行 而 超时 。 如 果 是 前 者 ， 那 么 urb 结构 已 经 从 调度 系统 中 脱离 出 来 ， 而 如 果 
是 后 者 则 urb. 结构 仍旧 链接 在 调度 系统 的 队列 中 ， 所 以 先 要 把 它 脱岗 出 来 (1029 47). Wa, TEER T 
urb 数据 结构 以 后 ， 从 usb_start_wait_urb( ) 返 回 的 status 指示 着 传输 的 成 败 ， 而 actual length 则 说 明 已 


usb_internal_control_msg( ) 和 usb_control_msg( ) 逐 层 返 问 到 ioctl_scanner( )， 本 次 传输 操作 已 经 完成 。 
我 们 在 前 面 讲 到 ， 斌 提 描 器 的 控制 而 言 ， 其 应 用 驱动) 进程 可 以 山系 统 油 用 iocti( ) 通 过 控制 传 
输 实现 ， 也 可 以 由 一 般 的 write( yread( ) 通 过 成 块 传输 实现 。 但 是 ， 对 于 与 扫描 器 间 的 数据 传输 ， 则 只 
能 由 write( )/read( ) 实 现 。 
髓 看 对 扫描 溃 的 数据 读 / 写 ， 这 是 通过 成 块 传输 完成 的 。 对 于 扫描 器 ， 读 操作 显然 更 为 科 要 ， 所 以 
我 们 只 看 系统 调用 read( ) 的 实现 read_scanner( )。 其 代码 在 drivers/usb/scanner.c 中 : 


518 static ssize t 

519 read scanner (struct file * file, char * buffer， 

520 size t count, loff t *ppos) 

521. A 

522 struct scn usb data *scn; 

529 struct usb device *dev; 

524 

525 ssize t bytes read; /* Overall count of bytes read */ 
526 ssize t ret; 

527 

528 kdev t sen minor; 

529 

530 int partial; /* Number of bytes successfully read */ 
531 int this read; /* Max number of bytes to read */ 


. 539. 


532 
533 
534 
535 
536 
537 
538 
539 
040 
541 
542 
543 
544 
545 
546 
547 
548 
549 
550 
551 
552 
553 
554 
555 
556 
557 
558 
559 
560 
561 
562 


563 


064 
969 
966 
967 
068 
069 
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of] 
572 
573 
574 
575 
576 
577 


eg 
* 其 X X X X X X X KF 关 OX 


* 
™ 
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int result; 
int rd expire = RD EXPIRE; 


char *ibuf; 

scn - file— private data; 
scn minor = scn-?scn minor; 
ibuf = scen->ibuf; 

dev = scn-?scn dev; 


bytes read = 0; 
ret = Q; 


file->f dentry—>d_inode->i_atime = CURRENT TIME; /* Update the 
atime of 
the device 
node */ 
down (&(scn->gen lock)) ; 


while (count > 0) { 
if (signal pending(current)) { 
ret = -EINTR; 
break; 


j 
this read = (count >= IBUF SIZE) ? IBUF SIZE : count; 


result = usb bulk msg (dev, usb rcvbulkpipe(dev, scn-?bulk in ep), 
ibuf, this read, &partial, RD NAK TIMEOUT): 

dbg("read stats(9d): result: *d this read:%d partial:%d count: 9d", 
sch minor, result, this read, partial, count); 


Scanners are sometimes inheriently slow since they are mechanical 
in nature. USB bulk reads tend to timeout while the scanner is 
positioning, resctting, warming up the lamp, etc if the timeout is 
set too low. A very long timeout parameter for bulk reads was used 
to overcome this limitation, but this sometimes resulted in folks 
having to wait for the timeout to expire after pressing Ctrl-C from 
an application. The user was sometimes left with the impression 
that something had hung or crashed when in fact the USB read was 
just waiting on data. So, the below code retains the same long 
timeout period, but splits it up into smaller parts so that 
Ctrl-C's are acted upon in a reasonable amount of time. 
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578 

579 if (result == USB ST TIMEOUT && 'partial) | /* Timeout 

580 and no 

581 data */ 

582 if (--rd expire <= 0) { 

583 warn (“read scanner (%d): excessive NAK’ s received”, sen minor); 

584 ret = -ETIME; 

585 break; 

586 } else { 

587 interruptible sleep on timeout (&scn->rd_wait_q, RD NAK TIMEOUT); 

588 continue; 

589 ) 

590 } else if ((result < 0) && (result !- USB ST DATAUNDERRUN)) | 

591 warn ("read scanner (%d) : funky result:%d. Please notify the maintainer. ”, 
scn minor, (int)result) ; 

592 ret = —EIO; 

593 break ; 

594 } 

595 

596 #ifdef RD DATA DUMP 

597 if (partial) { 

598 unsigned char cnt, cnt max; 

599 cnt max = (partial > 24) ? 24 : partial; 

600 printk(KERN DEBUG “dump (%d) : ^", sen minor); 

601 for {cnt=0; cnt < ent max; cnt++) { 

602 printk ("XX ^, ibuf[cnt]); 

603 } 

604 printk("\n’): 

605 } 

606 fendi f 

607 

608 if (partial) { /* Data returned */ 

609 if (copy to user(buffer, ibuf, partial)) { 

610 ret = —EFAULT; 

611 break; 

612 } 

613 count -= this read; /* Compensate for short reads */ 

614 bytes read += partial; /* Keep tally of what actually was read */ 

615 buffer += partial; 

616 ) else { 

617 ret = 0; 

618 break; 

619 } 

620 j 

621 up (& (scn-^gen, lock)) ; 

622 

623 return ret ? ret : bytes read; 

624  ] 
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我 们 先 把 面向 扫描 器 本 身 的 代码 留 给 读者 ， 在 这 里 把 注意 力 集中 华 对 成 央 传 输 的 调度 
usb_bulk_msg() 上 。 由 于 我 们 已 经 详细 阅读 了 有 关 控 制 传输 的 代码 ， 下 面 只 需 说 明 二 者 的 不 同 之 处 。 

GOH ATA, AES USB 设备 的 0 号 端点 总 是 用 于 控制 传输 的 ， 并 且 是 双向 的 端点 。 除 此 之 外 ， 则 设 
备 中 的 每 个 “接口 ” 即 逻 和 辑 功 能 都 有 一 组 端点 ， 不 同类 型 的 传输 要 使 用 不 同 的 端点 ， 并 且 每 个 端点 都 
on mr E a rm s 
主机 与 这 个 端点 之 闻 的 就 形成 了 一 个 逻辑 上 的 “管道 ”。 与 控制 交互 不 同 ， 成 块 传输 只 有 个 阶段 ， 即 
数据 阶段 ， 可 以 包括 次 或 多 次 数据 交互 。 每 次 交 — “个 信和 构成 ， 第 一 个 总 是 由 主 控制 器 发 
出 的 token 信和 包 ， 其 中 包含 着 对 方 的 地 址 和 端点 号 ， 以 及 交手 的 类 型 ， 即 PTID。 对 十 成 块 传输 的 PID, 
include/linux/usb.h TEX T WAZEE: 





749 #define usb sndbulkpipe (dev, endpoint) \ 
((PIPE BULK << 30) | | create pipe (dev, endpoint)) 
750 define usb rcvbulkpipe (dev, endpoint) \ 
((PIPE BULK << 30) | | create pipe (dev, endpoint) | USB DIR IN) 


成 块 传输 是 递 过 usb bulk msg( ) 完 成 的 ， 这 个 函数 的 代码 在 drivers/usb/usb.c 中 : 


[read_scanner( ) > usb. bulk msg( )] 


1111 fik 

1112 * usb bulk msg - Builds a bulk urb, :sends it off and waits for completion 

1113 * Qusb dev: pointer to the usb device to send the message to 

1114 * (pipe: endpoint “pipe” to send the message to 

1115 * @data: pointer to the data to send 

1116 * Glen: length in bytes of the data to send 

1117 * @actual length: pointer to a location to put the actual length 
transfered in bytes 

1118 * @timeout: time to wait for the message to complete before timing 
out (if 0 the wait is forever) 

1119 * 

1120 * This function sends a simple bulk message to a specified endpoint 

1121 * and walts for the message to complete, or timeout. 

1122 * 

1123 * If successful, it returns 0, othwise a negative error number. 

1124 * The number of actual bytes transferred will be plaed in the 

1125 * actual timeout paramater. 

1126 * 

1127 * Don’t use this function from within an interrupt context, like a 

1128 * bottom half handler. If you need a asyncronous message, or need to 

1129 * send a message from within interrupt context, use usb submit urb( ) 

1130 */ 

1131 int usb bulk msg (struct usb device *usb dev, unsigned int pipe, 

1132 void *data, int len, int *actual_length, int timeout) 

1133. ( 

1134 urb t *urb; 
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1135 

1136 if (len « 0) 

1137 return -EINVAL; 

1138 

1139 urb-usb alloc urb(0); 

1140 if (turb) 

1141 return —ENOMEM; 

1142 

1143 FILL BULK URB (urb, usb. dev, pipe, (unsigned char*)data,len, ^ /* build urb */ 
1144 (usb complete t)usb api blocking completion, 0) ; 
1145 

1146 return usb start wait urb (urb, timeout, actual length); 
1147  ] 


对 照 前 面 由 usb. control. msg( ) 调 用 的 usb, internal. control. msg( )， 就 可 以 看 出 二 者 JLF- PE, RE 
对 成 块 传输 请 求 的 urb 数据 结构 是 通过 FILL_BULK_URB (而 不 是 FILL CONTROL URB) 完成 的 。 
这 个 宏 操作 定义 于 include/linux/usb.h: 


480 #define FILL BULK URB (a, aa, b, c, d, e, f) \ 


481 do {\ 

482 spin lock init (&(a)-^lock) ;N 
483 (a) -^dev-aa; 

484 (a)->pipe=b; \ 

485 (a)-^transfer buffer=c; \ 

486 (a)->transfer buffer length-d;V 
487 (a) ->complete=e; \ 

488 (a)->context=f: \ 

489 } while (0) 


读者 不 妨 比 较 一 下 ， 看 看 二 者 有 何不 同 ， 以 及 为 什么 会 有 不同 。 
从 这 以 后 ，“ H4] uhci submit urb( ) 中 ， 成 央 传 输 与 控制 传输 才 又 有 不 同 。 我 们 在 这 里 只 便 出 
这 个 函数 中 用 于 成 块 传输 的 片段 (drivers/usbyuhci.c); 


[read_scanner( ) > usb. bulk, msg( ) > usb start, wait urb( ) > usb. submit urb( ) > uhci submit urb( )] 


"2 * a @ ç 


1342 case PIPE BULK: 
1343 ret = uhci submit bulk(urb, u); 
1344 break; 


显然 ， 控 制 传输 请 求 的 提交 由 uhci submit bulk( ) 完 成 ， 其 代码 在 drivers/usb/uhci.c F: 


[read_scanner( ) > usb_bulk_msg( ) > usb_start_wait_urb( ) > usb submit urb( ) > uhci_submit_urb( ) 
> uhci submit. bulk( )] 
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1039 static int uhci_submit_bulk (struct urb *urb, struct urb *eurb) 


1040 { 

1041 struct uhci_td *td; 

1042 struct uhci qh *gh; 

1043 unsigned long destination, status; 

1044 struct uhci *uhci = (struct uhci *)urhb->dev->bus—>hepriv: 
1045 int maxsze = usb maxpacket (urb->dev, urb-^pipe, usb pipeout(urb >pipe)); 
1046 int len = urb->transfer buffer length; 

1047 unsigned char *data = urb-^transfoer buffer; 

1048 struct urb priv *urbp = (struct urb priv *)urb—hcpriv; 

1049 

1050 if (len < 0) 

1051 return -EINVAL; 

1052 | 

1053 /* Can't have low speed bulk transfers */ 

1054 if (urb pipe & TD CTRL. LS) 

1055 return —EINVAL; 

1056 

1057 /* The “pipe” thing contains the destination in bits 8--18 */ 
1058 destination - (urb->pipe & PIPE DEVEP MASK) | usb packetid(urb—> pipe) : 
1059 

1060 /* 3 errors */ 

1061 status = TD CTRL ACTIVE | (3 << TD CTRL C ERR SHIFT): 

1062 

1063 if (!(urbO transfer flags & USB DISABLE SPD)) 

1064 status !- TD CTRL SPD; 

1065 

1066 /* 

1067 * Build the DATA TD's 

1068 */ 

1069 do { /* Allow zero length packets */ 

1070 int pktsze - len; 

1071 

1072 if (pktsze > maxsze) 

1073 pktsze - maxsze; 

1074 

1075 td = uhci alloc td(urb-^dev), 

1076 if (!td) 

1077 return -ENOMEM; 

1078 

1079 uhci add td to urb(urb, td); 

1080 uhci fill td(td, status, destination | ((pktsze 1) << 21) | 
1081 (usb gettoggle(urb-^dev, usb pipeendpoint (urb pipo), 
1082 usb pipeout(urb-^pipe)) << TD TOKEN TOGGLE), 

1083 virt_to_bus (data)) ; 

1084 

1085 data +- pktsze; 

1086 len — maxsze; 
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1087 

1088 if (len <= 0) 

1089 td->status |- TD CTRL IOC; 

1090 

1091 usb dotoggle(urb-»dev, usb pipeendpoint (urb-^pipe), 
1092 usb pipeout (urb->pipe) ) ; 

1093 } while (len > 0); 

1094 

1095 qh = uhci alloc qh(urb->dev) ; 

1096 if (!qh) 

1097 return —ENOMEM; 

1098 

1099 urbp-?gh = gh; 

1100 

1101 /* Always assume depth first */ 

1102 uhci insert tds in gh(qh, urb, 1); 

1103 

1104 if (urb-^transfer flags & USR QUEUE BULK && eurb) | 
1105 urbp-?queued = 1; 

1106 uhci append, queucd urb(uhci, eurb, urb); 

1107 | else 

1108 uhci insert qh(uhci, &uhci-^skel bulk qh, qh): 
1109 

1110 uhci add urb list(uhci, urb); 

1111 

1112 uhci inc fsbr(uhci, urb); 

1113 

1114 return -EINPROGRESS; 

1115  ] 


读 过 uhci, submit, control( ) 的 代码 的 读者 对 此 自然 不 会 有 困难 ， 我 们 只 指出 儿 点 。 第 一 ， 上 成 块 传输 
只 能 用 于 全 速 设备 ，( 试 银 ， 如 果 是 低速 设备 而 叉 此 “成 块 ” 传输 ， 怎 么 能 在 一 个 框架 ， 即 1 SERBRB 
IB) SERE? ) 所 以 如 果 是 低速 设备 (1054 行 ) 就 立即 返回 出 错 代码 一 EINVAL。 第 二 ， 成 块 传输 只 有 - 
个 阶段 、 一 种 交互 ， 即 数据 交互 ， 所 以 不 像 控 制 传输 那样 还 有 SETUP 交 据 和 状态 交互 。 第 三 ， 对 成 块 
传输 队列 的 执行 总 是 横向 ， 妈 宽度 优先 的 ， 所 以 调用 uhci insert tds in qh( ) 时 的 最 后 个 参数 breadth 
总 是 1 (1101 行 的 注释 中 说 “Always assume depth first” 目 好 是 说 反 了 )。 还 有 ， 对 成 块 传输 允许 将 针 
对 同一 对 象 的 传输 合并 (1106 行 )， 所 以 uhci submit_control( ) 多 一 个 参数 eurb， 非 0 NRE UAE 
而 尚未 完成 、 针 对 同一 对 和 象 的 成 块 传输 请 求 。 

同样 ， 请 求 传输 的 进程 也 在 usb_start_wait_urb() 中 唾 眼 等 待 ， 而 USB 控制 器 在 最 后 一 个 交互 所 在 
的 框架 结束 时 会 向 CPU 发 出 中 断 请 求 ，USB 总 线 中 断 服务 程序 的 入 口 也 同样 是 uhci_interrupt( )。 不 回 
的 是 :此 时 在 uhci_transfer_result( ) 中 调用 的 起 uhci result bulk( )， 而 个 是 uhci, result control( )。 FH 
是 uhci, transfer. result( ) 中 的 个 片段 (drivers/usb/uhci.c): 


[uhci_interrupt( ) > uhci transfer. result( )] 
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1401 case PIPE BULK: 
1402 ret = uhci result bulk(urb); 
1403 break; 


BIELLA, BRASH eel. FF uhci result bulk( )， 则 在 drivers/usb/uhci.c 中 定义 为 


uhci result interrupt( ): 


1117 /* We can use the result interrupt since they're identical */ 
1118 Hdefine uhci result bulk uhci result interrupt 


EPRE metti SP IHR LEES UE, aE SEC eR EUR), 只 是 数据 量 和 
CAREVA SARAR. Pr EX Hon RN A E T8] A B6 SC EL Rb EE S ix P E BA A E 


drivers/usb/uhci.c 1: 


[uhci interrupt( ) > uhci transfer result( ) > uhci result interrupt( )1 


940 static int uhci result interrupt (struct urb *urb) 


941 { 

942 struct list head *tmp, *head; 

943 struct urb priv *urbp = urb-^hepriv; 

944 struct uhci td *td; 

945 unsigned int status; 

946 int ret = 0; 

947 

948 if (lurbp) 

949 return -EINVAL; 

950 

951 urb-»actual length = 0; 

952 

953 head = &urbp-?list; 

954 tmp = head~>next; 

955 while (tmp != head) { 

956 td = list entry(tmp, struct uhci td, list); 
957 

958 tmp = tmp-?next; 

959 

960 if (urbp >fsbr_ timeout && (td->status & TD CTRL IOC) && 
961 '(td->status & TD CTRL ACTIVE)) { 

962 uhci inc fsbr(urb-^dev-?bus-^hepriv, urb); 
963 urbp-^fsbr timeout = 0; 

964 td->status &- "TD CTRL IOC; 

965 } 

966 

967 status = uhci status bits (td->status) ; 
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968 if (status & TD CTRL ACTIVE) 

969 return -EINPROGRESS; 

970 

971 urb-^actual length += uhci actual  length(td-^status); 
972 

973 if (status) 

974 goto td error; 

975 

976 if (uhci actual length(td-^status) < uhci expected length(td-^info)) { 
977 usb_settoggle(urb->dev, uhci_endpoint (td->info), 
978 uhci packetout (td-^info), 

979 uhci toggle(td-^info) ^ 1); 

980 

981 if (urb-^transfer flags & USB DISABLE SPD) { 
982 ret = -EREMOTEIO; 

983 goto err; 

984 ) else 

985 return 0; 

986 } 

987 i 

988 

989 return 0; 

990 

991 td_error: 

992 ret = uhci_map status(status, uhci_packetout (td->info)) ; 
993 if (ret == -EPIPE) 

994 /* endpoint has stalled - mark it halted */ 

995 usb. endpoint, halt (urb—dev, uhci. endpoint (td->info), 
996 uhci packetout (td->info) ) ; 

997 

998 err: 

999 if (debug && ret != -EPIPE) { 

1000 /* Some debugging code */ 

1001 dbg (“uhci result interrupt/bulk( ) failed with status %X ， 
1002 status); 

1003 

1004 /* Print the chain for debugging purposes */ 

1005 if (urbp-^qh) 

1006 uhci show urb queue (urb); 

1007 else 

1008 uhci show td(td); 

1009 ) 

1010 

1011 return ret; 

1012 ] 


同样 ， 认 真 读 过 uhci_result_control( ) 的 读者 也 不 应 对 这 段 代 但 感到 困难 。 
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A ARS): 扫描 器 是 速度 比较 慢 的 设备 ， 怎 么 能 知道 在 什么 时 候 去 读 就 有 数据 可 读 呢 ? 确实 
是 这 样 。 扫 描 器 (以 及 其 他 USB 设备 ) 在 接收 到 一 个 IN 命令 (token 信和 包 ) 时 ， 如 果 没 有 数据 可 以 发 送 就 
会 发 送 一 个 NAK 作为 应 答 。 而 USB 控制 器 ， 则 在 数据 交 革 (以 及 中 断交 互 ) 中 接收 到 NAK 时 不 将 交互 
请 求 的 TD_CTRL_ACTIVE 位 设置 成 0， 也 不 推进 (本 次 传输 的 ) 队 列 头 中 的 element 指针 ， 就 好 像 不 曾 
妥 动 本 次 交互 一 样 。 当 然 ， 最 后 很 可 能 会 使 相应 的 传输 办 超时 而 失败 。 所 以 ， 从 本 质 上 讲 ， 一 次 风 交 
互 (以 及 OUT 交互 ) 实 际 上 也 是 一 次 查询 。 那 么 ， 为 什么 不 像 一 般 设 备 驱动 那样 ， 让 设备 在 有 数据 可 发 
ISN ES ERAS aR? 前 面 讲 过 ，USB 总 线 的 所 谓 “ 中 断交 志 ” 在 本 质 上 也 是 查询 ， 
只 不 过 中 断交 互 是 周期 性 的 ， 其 执行 是 有 保证 的 ， 而 成 块 交互 既 非 周期 性 也 无 保证 而 已 。 当 然 ，USB 
设备 上 只 能 被 动 地 等 待 受 查询 这 么 一 种 安排 会 在 一 定 程度 上 降低 效率 , 但 这 是 USB 总 线 的 设计 人 员 在 各 
方面 权衡 折 中 以 后 作出 的 选 拌 。 如 果 考 虑 到 USB 总 线 上 相当 大 比例 的 流量 将 是 等 时 传输 (不 需要 查询 )， 
冉 考 虑 到 上 总线 上 设备 的 个 数 有 限 (127) 以 及 总 线 的 速度 ， 并 且 USB 控制 器 本 身 就 带 有 微 处 埋 器 ， 这 样 的 
选择 应 该 说 是 合理 的 。 注 意 上 面 所 说 的 超时 起 指 整 个 传输 (和 而 不 是 某 次 交互 ) 的 超时 ， 在 初始 化 根 集 
中 器 时 设置 了 一 个 定时 器 ， 定 时 地 通过 一 个 函数 由 _int_timer_do0 扫 描 USB 总 线 的 urb. list 队列 ， 将 超 
时 的 传输 请 求 从 队列 中 摘除 。 

回 到 read. scanner( ) 的 代码 中 。 既 然 成 块 传输 很 可 能 会 因 超 时 而 失败 ， 就 要 把 这 - -点 考虑 进去 。 怎 
么 办 呢 ? 很 简单 ， 只 要 传输 超时 ， 就 醒 了 再 睡 ， 过 一 会 儿 再 来 试 试 ( 见 代 码 中 的 579、587 和 588 4). 
也 就 是 说 ， 在 较 高 的 层次 上 也 实 山 定时 查询 。 这 样 的 查询 当然 不 能 无 限制 地 进行 下 去 ， 所 以 代码 中 安 
排 了 一 个 计数 器 rd_expire。 

在 扫描 器 的 虹 动 程序 中 并 未 用 到 中 断 传 输 ， 但 是 中 断 传输 在 对 USB 集中 器 的 操作 (从 而 USB 设备 
的 热 所 入) 中 扮演 着 重要 的 角色 ， 所 以 也 应 该 看 一 下 。 我 们 在 前 面 usb_hub_configure( ) 的 代码 中 看 到 ， 
BRE 个 (周期 性 的 ) 中 断 传输 时 , 党 要 为 其 分 配 和 设置 好 个 urb 数据 结构 , 并 通过 usb_submit_urb( ) 
提交 请 求 (drivers/usb/hub.c，214 一 223 fT). 

同样 ， 对 于 采用 UHCI 界面 的 主 控制 器 ，usb_submit_urb( ) 会 调用 uhci_submit_urb( ) 完 成 对 传输 的 
调度 。 也 在 是 在 这 里 ， 对 中 汤 传输 的 调度 有 了 一 些 与 前 不 同 的 操作 。 下 面 是 uhei_submit_urb( ) 中 的 一 
个 片段 (drivers/usb/uhcei.c): 


[usb hub configure( ) > usb_submit_urb( ) > uhci_submit_urb( )] 


=. © © č a wi £8 


1329 case PIPE INTERRUPT: 

1330 if (urb->bandwidth == 0) í( /* not yet checked/allocated */ 
1331 bustime = usb check_bandwidth(urb—>dev, urb); 

1332 if (bustime < 0) 

1333 ret = bustime; 

1334 else { 

1335 ret = uhci submit interrupt (urb); 

1336 if (ret == -EINPROGRESS) 

1337 usb_claim_bandwidth(urb->dev, urb, bustime, 0); 
1338 } 

1339 } else /* bandwidth is already set */ 

1340 ret = uhci_submit_interrupt (urb) ; 
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1341 break; 


rp opes BUT a RE, PTA H PE AL usb. check. bandwidth( )/9 2,21 Bib “ar”, BAG 
用 总 线 的 时 间 。 这 个 函数 是 中 断 传输 和 等 时 传输 公用 的 ， 其 代码 企 drivers/usb/usb.c P: 


[usb hub configure( ) > usb submit, urb( ) > uhci_submit_urb( ) > usb_check_bandwidth( )] 


256 /* 

251 * usb check bandwidth( ) : 

258 * 

259 * old alloc is from host_controller~>bandwidth allocated in microseconds; 
260 * bustime is from calc bus time( ), but converted to microseconds. 
261 * 

262 * returns Xbustime in us? if successful, 

263 * or USB ST BANDWIDTH ERROR if bandwidth request fails. 

264 * 

265 * FIXME: 

266 * This initial implementation does not use Endpoint.bInterval 

267 * in managing bandwidth allocation. 

268 * It probably needs to be expanded to use Endpoint.bInterval. 

269 * This can be done as a later enhancement (correction). 

270 +- x This will also probably require some kind of 

211 * frame allocation tracking...meaning, for example, 

272 * that if multiple drivers request interrupts every 10 USB frames, 
273 * they don’t all have to be allocated at 

274 * frame numbers N, N:10, N+20, etc. Some of them could be at 

275 * N+11, N+21, N+31, etc., and others at 

276 * N+12, N+22, N+32, etc. 

277 * However, this first cut at USB bandwidth allocation does not 
278 * contain any frame allocation tracking. 

279 */ 

280 int usb check bandwidth (struct usb device *dev, struct urb *urb) 
281 { 

282 int new_alloc; 

283 int old alloc = dev—>bus~>bandwidth allocated; 

284 unsigned int pipe = urb->pipe; 

285 long bustime; 

286 

287 bustime = usb calc bus time (usb pipeslow(pipe), usb pipein(pipe), 
288 usb pipeisoc(pipe), usb maxpacket(dev, pipe, usb pipeout (pipe))) ; 
289 if (usb pipeisoc(pipo)) 

290 bustime - NS TO US(bustime) / urb-^number of packets; 

291 else 

292 bustime = NS TO US(bustimo); 

293 

294 new alloc = old alloc + (int)bustime; 
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295 /* what new total allocated bus time would be */ 

296 

297 if (new alloc > FRAME TIME MAX USECS ALLOC) 

298 dbg( usb-check-bandwidth %sFAILED: was %u, would be %u, bustime = %ld us”, 
299 usb bandwidth option ? ^" : "would have ^, 

300 old alloc, new alloc, bustime); 

301 

302 if (!usb bandwidth option) /* don't enforce it */ 

303 return (bustime); 

304 return (new alloc <= FRAME TIME MAX USECS ALLOC) ? 


bustime : USB ST BANDWIDTH ERROR; 
305 } 


AOL, A Dike WARK. RMA MASUR Ae READ OX 
木 次 传 得 实际 传递 的 数据 量 )， 通 过 usb cale bus üme( ) 计 算出 需要 的 带宽 。 这 个 函数 的 代码 在 
drivers/usb/usb.c 中 : 


[usb_hub_configure( ) > usb_submit_urb( ) > uhci submit, urb( ) > usb_check_bandwidth( ) 
> usb calc bus time( )] | 


219 /* 

220 * usb calc bus time: 

221 * 

222 * returns (approximate) USB bus time in nanoseconds for a USB transaction. 

223 */ 

224 static long usb calc bus time (int low speed, int input dir, int isoc, int bytecount) 
295 A 

225 unsigned long tmp; 

221 

228 if (low speed) /* no isoc. here */ 

229 | 

230 if (input dir) 

231 { 

232 tmp = (67667L * (31L + 10L * BitTime (bytecount))) / 10001.: 

2394 return (64060L + (2 * BW HUB LS SETUP) + BW HOST DELAY + tmp); 

234 } 

245 else 

236 ( 

237 imp = (66700L * (31L + 10L * DitTime (bytecount))) / 1000L; 

238 return (64107L + (2 * BW HUB LS SETUP) + BW HOST _ DELAY + tmp); 

239 } 

240 j 
241 | 
242 f* for full-speed: */ | 
243 | 
244 if (tisoc) /* Input or Output */ | 
245 i 
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246 tmp = (8354L * (31L + 10L * BitTime (bytecount))) / 1000L; 
247 return (9107L + BW HOST DELAY + tmp): 

248 ] /* end not Isoc */ 

249 

250 /* for isoc: */ 

251 

252 tmp = (8354L * (31L + 10L * BitTime (bytecount))) / 1000L; 

253 return (((input dir) ? 7268L : 62651.) + BW_HOST_DELAY + imp); 
254 } 


具体 的 计算 涉及 USB 总 线 的 物 埋 性 质 ， 我 们 在 这 里 从 路 ， 有 兴趣 或 需 些 的 读者 可 参 疯 USB 总 线 
1.1 版 的 规格 书 。 计 算 的 结果 是 以 毫 微 秒 为 单位 的 占用 总 线 时 间 。 

回 到 usb_check_bandwidth( ) 中 ， 又 通过 NS_TO_US 将 毫 微 秒 换算 成 微 秒 。 如 果 是 等 时 传输 则 还 要 
除 以 需 归 传递 的 数据 信和 包 数量 ， 因 为 每 个 数据 信和 包 构 成 一 次 交互 ， 即 个 调度 单位 。 属 于 同 传输 的 
不 同人 交互 一 般 依次 分 布 在 不 同 的 框架 中 ， 而 不 在 同 “框架 中 完成 。 至 于 中 断 传 输 ， 则 只 有 “个 交互 ， 
一 个 信和 包 。 连 同 忆 来 已 经 分 配 的 带宽 :起 ， 总 的 带宽 不 得 超过 定义 于 include/linux/usb.h 的 常数 
FRAME TIME MAX USECS ALLOC: 





195 Hdefine FRAME TIME USECS 1000L 
796 Hdefine FRAME TIME MAX USECS ALLOC  (90L * FRAME TIME USECS / 100L) 


就 是 说 ， 不 得 超过 1000 微 秒 的 90%. 

为 了 对 框架 的 容量 有 个 大 概 的 印 像 ， 我 们 在 此 不 妨 作 一 个 粗略 的 估算 。 对 于 全 速 设 备 ，USB 总 线 
的 理论 带宽 是 12Mb， 即 1.5MB， 除 以 1024， 则 每 个 框架 的 带宽 大 约 臣 1.5SKB， 实 际 上 当然 达 个 到 这 
么 高 。 如 果 每 个 等 时 交互 的 信人 包 大 小 为 1023 学 节 ， 则 实际 上 在 每 个 框架 由 只 能 调度 一 个 等 时 父 互 ; 如 
果 信 和 包 大 小 改 成 512 字 节 ， 那 么 也 只 能 调度 沿 个 等 时 交互 ;， 余 可 类推 。 

回 到 uhci submit urb( ) 的 代 人 码 中 ， 如 果 可 以 分 配 所 需 的 带宽 ， 鳞 可 以 进一步 通过 
uhci_submit_interrupt( ) 提 交 传 输 请 求 了 。 基 代码 见 drivers/usb/uhci.c. 


[usb_hub_configure( ) > usb submit urb( ) > uhci submit urb( ) > uhci_submit_interrupt( )] 


906 static int uhci submit interrupt (struct urb *urb) 





907 { 

908 struct uhci td *td; 

909 unsigned long destination, status; 

910 struct uhci *uhci = (struct uhci *) urb->dev—->bus—>hepriv; 
911 

912 if (urb-^transfer buffer length > 


usb maxpacket(urb-^dev, urb->pipe, usb pipeout (urb->pipe) )) 
913 return -EINVAL; 


914 

915 /* The “pipe” thing contains the destination in bits 8--18 */ 

916 destination = (urb->pipe & PTPE DEVEP MASK) | usb _packetid(urb->pipe) ; 
917 
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918 status = (urb->pipe & TD CTRL LS) : TD CTRL ACTIVE | TD CTRL IOC; 

919 

920 td = uhci alloc td(urb-^dev); 

921 if (!td) 

922 return -ENOMEM; 

923 

924 destination |= (usb gettoggle(urb—->dev, usb pipeendpoint (urb->pipe), 
usb pipeout (urb->pipe)) << TD TOKEN TOGGLE) ， 

925 destination |= ((urb->transfer buffer length - 1) << 21); 

926 

927 usb dotoggle(urb-»dev, usb pipeendpoint (urb->pipe), usb pipeout(urb >pipe)): 

928 

929 uhci add td to urb(urb, td); 

930 uhci fill td(td, status, destination, 

931 virt_to_bus(urb->transfer buffer) ): 

932 

933 uhci insert td(uhci, &ubci-^skeltd| | interval_to_skel (urb—interval)], td); 

934 

935 uhci add urb list(uhci, urb); 

936 

937 return -EEINPROGRESS; 

938 | ] 


这 个 函数 与 前 面 的 uhci_submit_bulk( ) 很 相似 ， 只 是 成 块 传输 可 以 有 多 个 数据 信和 包 ， 而 中 断 传输 只 
有 一 个 信和 包 。 不 过 ， 这 二 省 还 有 个 香 要 的 区 别 ， 器 是 成 块 传输 以 传输 为 调度 单位 ， 插 入 调度 队列 的 是 
一 个 代表 着 成 块 传输 请 求 的 队列 (队列 头 和 车 和 十 人 交 妃 请 求 ); 而 中 断 传输 则 直接 把 父 互 请 求 插入 所 有 中 断 
交 鼎 的 队 诉 。 那 么 ， 具 体质 入 到 什么 位 置 上 呢 ? 以 朋 讲 过 ， 数 组 skeltd[ EPER HBAR] CRR”, 
把 交互 请 求 插 入 到 这 个 骨架 的 哪 一 点 上 就 决定 了 中 断 传输 的 周期 。 所 以 ， 代 码 中 根据 目标 没 备 的 中 断 
传输 周期 通过 __interval_to_skel( ) 计 算出 插入 点 的 下 标 ， 其 代 档 册 drivers/usb/uhci.h. 


Lusb_hub_configure( ) > usb submit urb( ) > uhci_submit_urb( ) > uhci submit. interrupt( ) 
> interval to skel( )] 


253 /* 

254 * Search tree for determining where <interval> fits in the 

255 * skclghl ] skeleton. 

256 * 

257 * An interrupt request should be placed into the slowest skelqghí ] 

258 * which meets the interval/period/frequency requirement. 

259 * An interrupt request is allowed to be faster than <interval> but not slower. 
260 * 

261 * For a given <interval>, this function returns the appropriate/matching 
262 * skelqh[ ] index value. 

263 * 

264 * NOTE: For UHCI, we don't really need int256 qh since the maximum interval 
265 * is 255 ms. However, we do need an intl gh since 1 is a valid interval 
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266 * and we should meet that frequency when requested to do so. 
267 * This will require some change(s) to the UHCI skeleton. 
268 x/ 

269 static inline int . interval to skel(int interval) 

270 { 

211 if (interval < 16) 1 

272 if (interval < 4) { 

273 if (interval < 2) 

274 return 0; /* inti for 0-1 ms */ 

275 return 1; /* int2 for 2-3 ms */ 

276 } 

277 if (interval < 8) 

278 return 2; /* int4 for 4-7 ms */ 

279 return 3; /* int8 for 8-15 ms */ 

280 } 

281 if (interval < 64) { 

282 if (interval < 32) 

283 return 4; /* intl6 lor 16-31 ms */ 

284 return 5; /* int32 for 32-63 ms */ 

285 } 

286 if (interval < 128) 

287 return 6; /* int64 for 64-127 ms */ 
288 return 7; /* int128 for 128-255 ms (Max.) */ 
289 ] 


将 中 断交 互 请 求 插入 调度 队列 以 后 ， 还 要 通过 usb claim bandwidth( id F —5EWK, DL fede] ie 
宽 又 重复 分 配给 其 他 传输 。 其 代码 见 drivers/usb/usb.c. 


[usb_hub_configure( ) > usb_submit_urb( ) > uhci_submit_urb( ) > uhci_submit_interrupt( ) 
> usb claim bandwidth( )| 


307 void usb claim bandwidth (struct usb device *dev, struct urb *urb, 
int bustime, int isoc) 


308 { 

309 dev—>bus—>bandwidth allocated += bustime; 

310 if (isoc) 

311 dev-^bus-»bandwidth isoc reqs-**; 

312 else 

313 dev->bus->bandwidth int reqs-**; 

314 urb->bandwidth = bustime; 

315 

316 Bifdef USB BANDWIDTH MESSAGES 

317 dbg (“bandwidth alloc increased by %d to %d for %d requesters', 
318 bustime, 

319 dev—>bus—>bandwidth_a] located, 

320 dev >bus->bandwidth_int_reqs + dev->bus~>bandwidth isoc reqs); 
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321 Hendif 
322 } 


传输 完成 以 后 ， 在 中 断 服务 程序 中 会 调用 uhci transfer result( )。 前 面 我 们 已 经 看 到 ， 
uhci_result_bulk( ) 实 际 上 也 是 uhci_result_interrupt ( ). 

对 于 USB 控 制 器 而 言 ， 中 断交 互 队列 并 没有 队列 头 ， 所 以 对 中 断交 互 的 执行 不 在 “队列 上 下 文 ” 
中 。 这 样 ，USB 控 制 器 在 执行 完 一 个 中 断交 互 时 就 无 从 推进 队列 头 中 的 指针 《根本 就 不 存在 队列 头 ); 
从 而 不 会 将 中 断交 互 从 (物理 地 址 ) 队 列 中 脱 链 ， 下 一 次 轮 到 同一 个 框 保 时 还 会 执行 这 个 交互 请 求 。 USB 
控制 器 的 这 种 特殊 设计 ， 与 软件 上 的 安排 结合 在 一 起 ,就 保证 了 中 断交 互 (以 及 等 时 交互 ) 的 周期 性 。 相 
比 之 下 ， 控 制 交 互 与 成 块 交 互 在 执行 完成 以 后 就 从 (物理 地 引 ) 队 列 中 脱 链 了 。 

对 中 斯 交互 , 在 uhci transfer result( ) 中 执行 了 uhci_result_interrupt( ) 以 后 还 有 一 些 特殊 的 操作 , 我 
们 再 列 出 有 关 的 代码 片断 ， 以 便 疯 读 : 


[uhci interrupt( ) > uhci_transfer_result( )] 


1416 switch (usb_pipetype(urb—pipe)) { 

1417 case PIPE CONTROL: 

1418 case PIPE BULK: 

1419 case PIPE ISOCHRONOUS : 

1425 break ; 

1426 case PIPE_INTERRUPT: 

1427 /* Interrupts are an exception */ 

1428 if (urb-^interval) { 

1429 urb-?complete (urb): 

1430 uhci reset interrupt (urb) ; 

1431 return: 

1432 } 

1433 

1434 /* Release bandwidth for Interrupt or Isoc. transfers */ 
1435 /* Spinlock needed ? */ 

1436 if (urb->bandwidth) 

1437 usb release bandwidth (urb->dev, urb, 0); 
1438 uhci unlink generic (urb); 

1439 break; 

1440 } 


中 断 传输 是 周期 性 的 ，usb 结构 中 的 interval 字段 决定 了 它 的 周期 。 显 然 ， 这 个 周期 不 应 该 是 0, 
所 以 可 以 用 0 来 表示 特殊 的 意义 。 事 实 上 ， 当 interval 为 0 时 就 表示 相应 的 传输 是 一 次 性 的 (而 不 是 周 
期 性 的 ) 操 作 。 所 以 , 代码 中 (1436 一 1439 行 ) 当 interval 为 0 时 就 通过 usb_release_bandwidth( ) 释 放 带 宽 、 
并 且 道 过 uhcei_unlink_generic( ) 释 放 有 关 的 数据 结构 。 与 其 他 三 种 传输 在 此 时 的 操作 (1422~-1424 行 ) 相 
比较 ,就 可 以 看 出 完全 是 REI. 但 是，… 次 性 的 中 断 传 给 毕 况 是 特殊 情况 ， 实 际 上 interval MEE 0, 
否则 中 断 传 输 就 失去 了 存在 的 意义 。 当 interval dE 0 时 ， 方面 先 调用 事先 设置 的 complete ia, Uae 
正在 睡眠 等 待 的 进程 ， 或 者 向 其 发 送 一 个 信号 ;， 男 一 方面 则 调用 个 函数 uhci_reset_interrupt( )， 其 代 
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码 在 drivers/usb/uhci.c 中 : 


[uhci interrupt( ) > uhci transfer result( ) > uhci reset, interrupt() | 


1014 static void uhci reset interrupt (struct urb *urb) 


1015 { 
1016 struct list head *tmp; 
1017 struct urb priv *urbp = (struct urb priv *)urb-^hepriv; 
1018 struct uhci, td *td; 
1019 
1020 if (lurbp) 
1021 return; 
1022 
1023 tmp = urbp-?list. next; 
1024 td = list entry(tmp, struct uhci td, list); 
1025 if (ltd) 
1026 return; 
1027 
1028 td-»status = (td->status & Ox2F000000) | TD CTRL ACTIVE | TD CTRL LOC; 
1029 td->info &- "(1 << TD TOKEN TOGGLE); 
1030 td-^info |= (usb gettoggle(urb-^dev, usb pipeendpoint (urb-^pi pe), 
usb_pipeout (urb->pipe)) << TD TOKEN TOGGLE); 
1031 usb dotoggle(urb->dev, usb, pipeendpoint (urb->pipe), 
usb pipeout (urb-^pipe)) ; 
1032 
1033 urb->status = -EINPROGRESS; 
1034  ] 


调用 这 个 函数 于 什么 呢 ? 从 代码 中 可 以 看 出 ， 从 这 个 中 断 传 输 的 交互 队列 中 找到 其 《惟一 的 ) 38 
互 ， 将 其 TD_CTRL_ACTIVE 标志 位 (以 及 TD_CTRL_IOC 标志 位 ) 重 新 设 成 1。 此外， 也 要 翻转 tocken 
信和 包 中 的 序号 位 。 前 面 讲 过 ，USB 控制 器 在 执行 中 断交 互 时 不 将 交 吉 措 述 块 脱 链 ， 而 只 是 将 其 
TD_CTRL_ACTIVE 标志 位 (实际 上 还 有 TD_CTRL_IOC 标志 位 ) 清 0， 以 后 执行 时 就 会 跳 过 这 个 交互 。 
要 使 USB 控制 器 下 一 次 扫描 到 这 个 交互 描述 块 时 再 次 执行 中 断交 丘 ， 只 要 把 TD_CTRL_ACTIVE 标志 
位 再 设 成 1 就 行 了 。 所 以 ， 如 果 interval 非 0， 在 执行 完 这 个 函数 后 就 可 以 返回 了 (1431 4r) Pret 
的 周期 性 就 是 这 样 通过 硬件 与 软件 的 配合 而 实现 的 。 如 果 interval 为 0， 则 该 次 中 断 传输 是 “一 次 性 ” 
的 ， 所 以 完成 后 要 释放 占用 的 带宽 并 从 调度 队列 中 出 链 。 

看 到 这 里 ， 不 知 读者 是 否 感到 有 些 异 样 ? 试想 ， 等 时 传输 和 中 断 传输 一 样 也 是 周期 性 的 ， 理 应 和 
中 断 传 输 受 到 同样 的 处 理 ， 怎 么 反倒 与 控制 传输 和 成 块 传输 为 伍 呢 ? 这 不 是 站 错 了 队 吗 ?后 面 我 们 会 
回答 这 个 问题 。 


扫描 器 和 USB 集中 器 部 不 使 用 等 时 传输 ， 那 是 专 为 实时 的 首 频 以 及 视频 设备 (如 电话 、 可 视 电 话 
等 等 ) 而 设计 的 。 不 过 ， 在 阅读 了 其 他 三 种 传输 的 代码 以 后 ， 肯 来 看 等 时 传输 的 代 公 其 实 己 是 水 到 炬 
成 的 事 了 ,我 们 只 把 注意 力 集中 在 uhei_submit_urb( )、uhci_submit_isochronous( )、uhci_transfer_result( )、 
以 及 ubci_result_isochronous( ) 这 几 个 函数 上 ;从 驱动 程序 的 角度 来 说 ， 与 其 他 传输 的 区 判 也 就 在 本 这 
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几 个 函数 。 顺 便 提 一 下 ， 与 等 时 传输 有 关 的 函数 名 和 常数 定义 中 常常 出 现 “iso”， 这 表示 isochronous, 
而 跟 “ 国 际 标 准 化 组 织 ” 训 大 关系 。 
我 们 先 看 uhci_submit_urb¢ ) 中 的 片断 (drivers/usb/uhci.c): 





[usb_submit_urb( ) > uhci submit, urb( )] 


1345 case PIPE ISOCHRONOUS : 

1346 if (urb->bandwidth == 0) ( /* not yet checked/allocated */ 
1347 if (urb-^number of packets <= 0) { 

1348 ret = -EINVAL; 

1349 break; 

1350 } 

1351 bustime = usb check bandwidth (urb->dev, urb); 

1352 if (bustime < 0) { 

1353 ret = bustime; 

1354 break; 

1355 } 

1356 

1357 ret - uhci submit isochronous (urb); 

1358 if (ret == -EINPROGRESS) 

1359 usb claim bandwidth(urb->dev, urb, bustime, 1); 
1360 ] eise /* bandwidth is already set */ 

1361 ret = uhci submit isochronous (urb): 

1362 break; 


显然 ， 这 与 与 用 于 中 断 传输 的 代码 儿 乎 完全 是 - - 样 的 ， 只 不 过 把 uhci submit interrupt( ) 换 成 了 
uhci submit, isochronous( )。 这 个 函数 的 代 权 让 drivers/usb/uhci.c 


[usb submit urb( ) > uhci, submit urb( ) > uhci_submit_isochronous( )] 


1184 static int uhci_submit_isochronous (struct urb *urb) 


1185 { 

1186 struct uhci td *td; 

1187 struct uhci *uhci = (struct uhci *)urb—->dev—>bus->hepriv; 
1188 int i, ret, framenum; 

1189 int status, destination; 

1190 

1191 status = TD CTRL ACTIVE | TD CTRL. IOS: 

1192 destination = (urb->pipe & PIPE DEVEP MASK) | usb packetid(urb->pipe) ; 
1193 

1194 ret = isochronous_Cind_start (urb) : 

1195 if (ret) 

1196 return ret; 

1197 

1198 framenum = urb-^5start frame; 

1199 for (i = 0; i < urb->number of packets; i++, framenum*4) { 
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1200 if (lurb-^iso frame_desc[i]. length) 

1201 continue; 

1202 

1203 td = uhci alloc td(urb-^dev); 

1204 if (!td) 

1205 return  ENOMEM; 

1206 

1207 uhci add td to urb(urb, td); 

1208 uhci fill td(td, status, destination . 
((urb-»^iso. frame desc[i].length - 1) << 21), 

1209 virt to bus(urb— transfer buffer + urb-^iso frame desc[i].offset)) ; 

1210 

1211 if (i + 1 >= urb >number of packets) 

1212 td->status !- TD CTRL I0C; 

1213 

1214 uhci insert td frame list(uhci, td, framenum); 

1215 } 


Ant ese pss USE EE a. Ae 个 信和 包 的 TD_CTRL_IOC fi. 
AVEEEICOL121-—1212 17), ARAB SIEM n e RUA Aa EH TT REC BE CE E 
EH WD). 

tT USB 总 线 ， 等 时 售 包 的 内 容 是 无 结构 的 字 节 流 ， 其 各 个 信和 包 中 的 数据 往往 都 在 同一 个 大 缓冲 
区 中 ， 而 只 是 位 移 不 同 ， 因 而 不 能 在 各 个 信和 包 缓 冲 区 之 间 插 入 其 他 信息 。 所 以 ， 划 把 每 个 信和 包 缓冲 区 
的 起 点 与 长 度 另 外 保存 在 某 个 地 方 ， 为 此 在 usb 数据 结构 中 设立 了 一 个 结构 数组 iso_frame_desc[ ]， 用 
来 记录 本 次 传输 中 各 个 信 包 缓冲 区 的 起 点 与 长 度 。 等 时 传输 一 般 是 按 “ 帧 ”进行 的 ， 也 叫 “frame ， 
这 里 的 “frame_desc” 是 “ 帧 描述 结构 ”的 意思 ， 而 并 不 是 指 “ 框 架 ”"。 上 体 设备 的 驱动 程序 此 在 调用 
usb_submit_urb( ) 之 六 设置 好 这 个 数组 。 

与 中 断 传输 的 调度 不 同 , 等 时 传输 炎 落 实 到 具体 的 ( 个 或 多 个 ) 框 架 上 , 构成 该 等 时 传输 请 求 的 各 
个 交互 请 求 旧 挂 入 具体 框架 的 队列 路 去。 前面 的 usb_check_bandwidth( ) 只 是 从 平均 带宽 的 角度 饶 定 了 
能 够 满足 给 定 等 时 传输 的 要 求 ， 但 是 却 并 没有 落实 到 具体 的 框 奥 4 叶 。 所以， 代码 中 通过 
isochronous_find_start() 寻 找 个 框架 作为 起 点 ， 其 代 但 在 drivers/usb/uhci.c 中 : 





[usb submit, urb( ) > uhci submit, urb( ) > uhci_submit_isochronous( ) > isochronous. find. start( )] 


1158 static int isochronous find start (struct urb *urb) 

1159 { 

1160 int limits; 

1161 unsigned int start. = 0, end -. 0; 

1162 

1163 if (urb-^»number of packets > 900) = /* 900? Why? */ 
1164 return —EFBIG; 

1165 

1166 limits = isochronous lind limits(urb, &start, &end); 
1167 
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1168 if (urb->transfer flags & USB ISO ASAP) { 

1169 if (limits) | 

1170 int curframe; 

1171 

1172 curframe = uhci get current frame number (urb~>dev) % UHCJ NUMFRAMES: 
1173 urb-^start frame = (curframe + 10) % UHCI NUMFRAMES; 
1174 } else 

1175 urb->start frame = end; 

1176 } else { 

1177 d urb->start_frame %= UNCT NUMFRAMES; 

1178 /* FIXME: Sanity check */ 

1179 } 

1180 

1181 return Q; 

1182} 


SHY ea a BAD RAF Hb. (AI 1024 字 节 。 当 个 等 时 传输 包含 多 个 信人 包 ， 从 
而 包含 多 个 父 互 时 ， 要 尽量 把 这 些 信 和 包 分 布 到 不同 钓 框架 由 ， 而 个 是 先 把 一 个 框架 填 满 (90%) 以 后 ,再 
前 进 到 下 个 框架 。 进 一 步 ， 对 同一 日 标 设备 的 不 同等 时 传输 也 应 尽量 分 布 到 不 同 的 框架 路， 站 避免 
使 一 个 杠 点 被 同一 目标 设备 的 变 互 使 用 多 次 。 所 以 ， 代 码 中 先 通 过 isochronous_find_limits( ) 看 一 下 对 
于 这 个 等 时 传输 的 起 点 有 省 限制 。 这 个 函数 的 代码 在 drivers/usb/uhci.c F: 


Lusb_submit_urb( ) > uhci_submit_urb( ) > uhci_submit_isochronous( ) > isochronous_find_start( ) 
> isochronous_find_limits( )] 


1123 stalic int isochronous_find_limits (struct urb *urb, unsigned int *start, 
unsigned int *end) 


1124 { 

1125 struct urb *last_urb = NULL; 

1126 struct uhci *uhci - (struct uhci *)urb-^dev-^bus-^hcpriv; 
1127 struct list head *tmp, *head = &uhci~>urb list; 

1128 int ret = 0; 

1129 unsigned long flags; 

1130 

1131 nested lock(&uhci->urblist lock, flags); 

1132 tmp = head->next; 

1133 while (tmp !- head) { 

1134 struct urb *u - list entry(tmp, struct urb, urb list); 
1135 

1136 tmp = tmp-?next; 

1137 

1138 /* look for pending URB’ s with identical pipe handle */ 
1139 if ((urb->pipe == u->pipe) && (urb->dev == udev) && 
1140 (u->status == -EINPROGRESS) && (u !- urb)) { 

1141 if (!last urb) 

1142 *start = u->start frame; 


. 558 . 


1143 
1144 
1145 
1146 
1147 
1148 
1149 
1150 
1151 
1152 
1153 
1154 
1155 
1156 


possible) "; 


第 8 章 设备 驱动 


last urb = u; 
} 


if (last_urb) { 
*end = (last urb->start trame + last urb->number_of_packets) & 1023; 
ret = 0; 

} else 
ret = -1; /* no previous urb found */ 


nested unlock (&uhci->urblist_lock, flags); 


return ret; 


我 们 把 它 留 给 读者 。 这 个 函数 返回 0 时 表示 对 给 定 等 时 传输 的 起 点 有 限制 , 返回 一 1 则 表示 可 以 任 
意 决定 。 回 到 isochronous_find_start( ) 的 代码 中 ， 标 志 位 USB. ISO ASAP XIR “AFMA as soon as 
所 以 。 如 果 可 以 任意 决定 就 从 USB 主 控 器 的 寄存 器 中 读 入 当前 的 框架 号 ， 在 此 基础 上 吕 


10 作为 起 点 。 不 过 ， 由 于 等 时 父 扎 的 执行 是 周期 性 的 ， 所 谓 早晚 只 对 第 一 次 交 扎 有 意义 。 


框架 了 时》 


[lži] uhci_submit_isochronous( ) 中 ， 


这 样 ， 就 使 同一 传输 的 各 个 交互 分 布 到 了 不 同 的 框 淋 中 。 


函数 uhei_insert_td_frame_list( ) 的 代码 在 drivers/usb/uhei.c 中 ， 我 们 把 它 留 给 读者 。 


[usb. submit. urb( ) > uhci_submit_urb( ) > uhci submit isochronous( ) > uhci_insert_td_frame_list( ] 


200 


201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 


static void uhci_insert_td_frame_list (struct uhci *uhci, 


struct uhci td *td, unsigned framenum) 


unsigned long flags; 
struct uhci td *nexttd; 


framenum %= UHCI NUMFRAMES; 
spin lock irqsave(&uhci-^framelist lock, flags); 


td->frameptr = &uhci-»fl-»frame[framenum]; 
td-»link = uhci->fl->framelframenumj] ; 
if (!(td->link & (UHCI PTR TERM | UHCT_PTR QD) { 
nexttd = (struct uhci td *)uhci_ptr_to virt (td->link) ; 
td->nexttd - nexttd; 
nexttd->prevtd = td; 
nexttd->frameptr = NULL; 
} 


uhci-»fl-»frame[framenum] = virt to bus(td); 
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可 以 看 出 通过 uhci insert td. frame. list( HAAL ARKA 
ALPE feum, FEARS Sa DOS. 其 起 点 就 是 上 面 通过 isochronous. find. start( ) 确 定 的 。 
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219 spin_unlock_irqrestore (&uhci->framelist lock, flags); 
220 } 


史 然 ， 等 时 传输 的 各 个 交 占 都 是 以 父 互 请 求 为 单位 插入 各 个 框架 ， 调 不 像 控 制 交互 战 成 块 交 互 屠 
样 是 以 整个 传输 为 单位 将 个 队列 挂 入 调度 系统 中 ，。 

USB 控制 器 对 等 时 交互 的 执行 与 中 断交 此 相似 。 由 寺 等 时 交互 队列 物理 上 并 没有 队列 头 ， 央 而 等 
时 交互 的 执行 不 在 “队列 上 下 文 ” 中 。 这 样 ， 主 控制 器 在 执行 完 一 个 等 时 交互 时 便 不 会 推进 队列 头 中 
的 指针 ， 所 以 不 会 将 等 时 父 互 从 队列 中 脱 链 。 

在 和 中断 服务 程序 中 调用 的 uhci result, isochronous( ) 与 其 他 传输 大 同 小 异 。 这 个 函数 的 代码 在 
drivers/usb/uhci.c 中 ， 我 们 把 世 留 给 读者 。 


[uhci_interrupt( ) > uhci_transfer_result( ) > uhci_result_isochronous( )] 


1222 static int uhci result isochronous (struct urb *urb) 


1208). f 

1224 struct list_head *tmp, *head; 

1225 struct urb priv *urbp = (struct urb priv *)urb->hepriv: 

1226 int status; 

1227 int i, ret = 0; 

1228 

1229 if (!urbp) 

1230 return -EINVAL; 

1231 

1232 urb-^»actual length = 0; 

1234 

1234 i = 0; 

1235 head = &urbp->list; 

1236 tmp = head->next; 

1237 while (tmp != head) { 

1238 struct uhci td *td - list entry(tmp, struct uhci td, list); 

1239 int actlength; 

1240 

1241 tmp = tmp-»next; 

1242 

1243 if (td->status & TD CTRI ACTIVE) 

1244 return -EINPROGRESS; 

1245 

1246 actlength ~ uhci actual length(td-»status); 

1247 urb-^iso frame desclil.actual length - actlength: 

1248 urb->actual length t= actlength: 

1249 

1250 status = uhei map status(uhci status bits(td >status), 
usb pipcout (urb pipe)); 

1251 urb->iso frame_descli]. status - status: 

1252 if (status != 0) { 

1253 urb->error_count++; 
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1254 rel = status; 
1257 I++ : 

1260 return rei; 

1261 } 


但是 ， 就 如 前 面 所 指出 的 ，uhci_transfer_result( ) 中 对 等 时 传输 的 处 理 有 些 特殊 ， 或 者 更 备 切 地 说 ， 
是 应 该 特殊 而 没有 特殊 ， 把 周期 性 的 等 时 传输 混同 于 非 周 期 性 的 控制 传输 和 成 块 传输 了 。 我 们 再 来 看 
uhci transfer result( ) 中 的 有 关 片 段 (drivers/usb/uhei.c): 


[uhei_interrupt( ) > uhci transfer result( )] 


1416 switch (usb pipetype(urb-^»pipe)) | 

1417 case PIPE CONTROL: 

1418 case PIPE BULK: 

1419 case PIPE ISOCHRONOUS: 

1420 /* Release bandwidth for Tnterrupt or lsoc. transfers */ 
1421 /* Spinlock needed ? */ 

1422 if (urb- bandwidth) 

1423 usb release bandwidth(urb-»dev, urb, 1): 
1424 uhci unlink generic(urb); 

1425 break; 

1426 case PIPE INTERRUPT: 

1439 break; 

1440 } 

1441 

1442 if (urb->next) | 

1443 turb = urb »next; 

1444 do { 

1445 if (turb-^status !- -EINPROGRESS) [| 
1446 proceed - 1; 

1447 break; 

1448 } 

1449 

1450 turb = turb->next:; 

1451 } while (turb && turb !- urb && turb !- urb->next); 
1452 

1453 if (turb -= urb |. turb == urb >next) 
1454 is ring = 1; 

1455 } 

1456 

1457 if (urb->complete && !proceed) | 

1458 urb->complete (urb); 
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1459 if (!proceed && is ring) 

1460 uhci submit urb(urb): 

1461 } 

1462 

1463 if (proceed && urb->next) | 

1464 turb = urb-?next; 

1465 do { 

1466 if (turb->status != -EINPROGRESS && 
1467 uhci submit urb(turb) != 0) 
1468 

1469 turb = turb->next; 

1470 } while (turb && turb != urb-^next) ; 
1471 

1472 if (urb-^complete) 

1473 urb->complete (urb); 

1474 | 


AK, USB 控制 器 在 执行 等 时 交互 以 后 不 将 其 脱 链 ， 就 是 为 了 保证 其 周期 性 。 可 是 ， 这 里 仍旧 遂 
过 uhci_unlink_generic( ) 将 整个 等 时 传输 请 求 从 全 部 有 关 的 队列 中 脱 链 ， 其 中 也 包括 从 采用 物理 地 址 的 
队列 中 脱 链 ， 这 是 在 uhci_unlink_generic( ) 中 经 uhci_destroy_urb_priv( ) 调 用 uhci_remove_td( ) 完 成 的 ， 
读者 可 以 回 过 去 看 . -下 。 也 就 是 说 ， 虽 然 USB 控制 此 的 硬件 不 把 等 时 交 女 从 执行 队列 中 脱 链 ， 可 是 软 
件 还 是 页 由 断 服务 程序 中 把 它 脱 链 了 。 为 什么 呢 ? 这 要 与 上 面 1442 一 1474 TSA AKA. HU 
讲 过 ， 这 段 代码 的 日 的 是 使 等 时 传输 流水 线 化 。 我 们 以 电 放 为 例 来 说 明 为 什么 有 这 个 问题 。 假 定 有 个 
IP 电话 机 接 在 USB 总 线 上， 通过 等 时 传输 与 主机 通信 ,并 由 主机 由 的 软件 和 网 络 接口 建立 起 与 对 外 的 
连接 。 为 这 个 目的 ,在 USB 总 线 上 至 少 要 建立 起 两 个 等 时 传输 ， 分 别 用 于 正 及 两 个 方向 。 我 们 考虑 其 
中 从 主机 到 电话 机 这 个 方向 的 等 时 传输 。 如 果 从 网 上 接收 到 了 米 晶 对方 的 数据 ， 并 通过 这 惟一 的 一 个 
等 时 传输 发 送 给 电话 机 ， 那 么 贝 话机 每 一 秒 钟 才 中 断 一 次， 得 次 得 到 够 用 一 秒 钟 的 数据 量 。 可 是 ， 这 
一 来 从 主机 到 电话 机 这 一 - 段 路 上 就 有 了 一 秒 钟 的 时 差 。 对 杆 有 些 应 用 ， 这 固定 的 一 秒 钟 时 在 是 可 以 接 
受 的 ， 但 是 对 丁 电话 却 是 不 可 接受 的 。 要 解决 这 个 问题 ， 就 只 好 把 传输 的 单位 分 小 ， 例 如 分 成 每 50 玉 
秒 一 个 传输 ， 也 就 是 一 秒 钟 共 20 个 传输 (尽管 是 以 同一 个 端点 为 目标 )， 这 样 就 可 以 使 轩 为 USB 总 线 
传输 而 引入 的 时 差 隆 到 200 毫秒 。 田 方面， 即使 是 可 以 接受 一 秒 钟 时 差 的 应 用 ， 也 有 个 从 发 生 中 断 
以 后 全 下 一 趟 执行 之 间 是 否 来 得 及 处 埋 的 问题 ， 所 以 一 般 至 少 也 要 实行 “ 双 缓 冲 ” BESTE SOT] PA 
六 区 的 方法 。 具 体 到 等 时 传输 ， 就 是 把 整个 流量 分 成 两 个 传输 。 所 以 ， 需 要 通过 等 时 传输 传递 的 流量 
总 是 分 成 N 个 传输 ，N 为 1 只 是 个 特例 。 对 本 这 N 个 传输 ，usb 结构 中 提供 了 一 个 指针 next, HRE 
这 些 传输 的 usb 结构 连 成 一 个 环 。 每 当 有 -个 传输 完成 而 发 生 中 断 时 ， 都 批 这 个 传输 从 调度 系统 中 摘 
下 来 ， 供 设备 驱动 程序 的 高 层 或 应 用 软件 处 理 ， 同 时 就 将 上 一 次 (或 上 几 次 ) 摘 下 的 传输 理 提 交加 调 
度 系 统 。 如 此 周而复始 ， 就 使 整个 流量 分 布 得 均匀 了 。 我 们 拒 1442~ 1474 行 细 凶 贸 给 读者 中 己 阅 读 。 
注意 凡是 已 经 提交 而 尚 末 执 行 的 传输 其 状态 必定 是 一 EINPROGRESS。 混 么 ， 如 果 确实 只 要 个 传输 就 
可 以 了 呢 ? 可 以 计 它 的 指针 next HULL, REA 1460 行 就 会 把 它 和 白山 再 提交 给 调度 系统 。 

从 总 体 上 看 ， 宏 观 地 看 ， 这 样 的 设计 当然 是 很 合理 《而且 很 必要 〉 的， 但 是 ， 从 实现 的 细节 看 则 
还 可 改进 。USB 控制 器 之 所 以 只 将 在 队列 上 下 文中 的 人 交 上 里 请 求 从 执行 队列 中 摘 下 ， 调 让 不 人 在 队 列 上 下 
文中 的 交互 请 求 留 华 队列 中 ， 就 是 因为 考虑 到 了 这 些 交 互 请 求 是 周期 性 的 。 身 现在 仿 要 将 这 些 交 互 请 
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求 反复 地 搞 下 又 挂 上 ， 岂 不 是 没有 “把 政策 用 足 ”? 再 说 ， 只 要 不 将 交互 请 求 中 的 TD_CTRL_ACTIVE 
标志 位 设 成 1， 即 使 留 在 队列 中 也 没有 关系 ，USB 控制 器 在 执行 时 如 发 现 一 个 交互 请 求 处 十 “不 活跃 ” 
状态 就 会 跳 过 它 继续 往 前 执行 。 还 有 ， 交 互 请 求 与 绥 冲 区 之 间 的 惟一 联系 只 是 一 个 指针 link, RAY 
旧时 也 还 可 以 “ 山 不 转 水 转 ” 让 交互 请 求 留 在 队列 中 人 而 让 缓冲 区 周转 。 总 之 ， 用 于 等 时 传输 的 这 段 代 
码 是 可 以 优化 的 。 等 时 传输 的 实 击 还 是 比较 新 的 ， 还 不 像 内 核 的 主体 部 分 那样 已 经 经 历 了 无 数 人 的 横 
- 挑 鼻子 竖 挑 眼 ， 述 没有 来 得 及 走 过 比较 深入 的 优化 、 改 进 的 阶段 ， 这 也 是 可 以 理解 的 。 

不 过 ， 尽 管 有 待 改进 ， 等 时 传输 的 功能 还 是 完整 的 ， 并 已 用 于 具体 的 设备 。 

结合 以 上 的 解释 ， 读 者 应 该 不 难 谈 懂 与 等 时 传输 有 关 的 这 几 个 函数 ， 从 而 理解 等 时 传输 的 机 型 与 
过 程 。 可 是 ， 不 结合 具体 的 设备 来 看 这 些 代 但 总 令 人 有 点 “脱离 实际 ”的 感觉 ， 所 以 我 们 找 了 一 个 摄 
像 机 的 豫 动 程序 作为 实例 ， 使 读者 趾 以 看 到 具体 的 设备 怎样 建 并 起 USB 总 线 上 的 等 时 传输 ， 又 怎样 道 
过 等 时 传输 在 应 用 进程 与 设备 之 问 传递 数据 。 与 这 种 摄像 机 有 关 的 代码 都 在 drivers/usb/ibmcam.c 和 
drivers/usb/ibmcam.h 两 个 文件 中 ， 我 们 在 这 里 引用 的 只 起 其 中 的 一 部 分 。 

同样 ， 摄 像 机 的 驱动 程序 也 是 通过 系统 调用 ioctl ) 实 现 对 设备 的 控制 ， 有 具体 的 鹃 数 为 
ibmcam ioctl( )。 与 前 面 的 扫描 器 坚 动 不 同 的 是 , 对 摄像 机 的 驶 动 基本 上 是 在 内 核 中 实现 的 , 所 以 其 “ 设 
备 驱 动 层 ” 比 我 们 前 面 看 到 的 要 厚 一 些 , 例如 在 ibmcam_ioct( ) 中 就 实现 了 不 少 具体 的 控制 命令 ,但 是 ， 
我 们 在 这 里 并 不 关心 摄像 机 中 的 具体 资源 《例如 有 些 什么 寄存 器 〉 以 及 对 这 些 资 源 的 其 体操 作 〈 例 如 
怎样 设 管 色调 等 等 ， 而 以 控制 传输 为 手 鼎 来 实施 这 些 操 作 这 一 个 “基本 点 ” 则 是 相同 的 。 所 以 我 们 把 
ibmcam ioctl( ) 太 有 关 的 代码 留 给 进一步 有 兴趣 的 读者 。 

这 里 ， 我 们 先 看 等 时 传输 的 建立 。 这 是 由 ibmcam_init_isoc( ) 在 打 升 摄像 机 设备 文件 时 完成 的 。 


[ibmcam, open( ) > ibmcam_init_isoc( )] 


2148 static int ibmcam init isoc(struct usb ibmcam *ibmcam) 


2149  ( 

2150 struct usb device *dev = ibmcam->dev; 

2151 int 1, err; 

2152 

2153 if (!TBMCAM_IS_OPERATTONAL ( i bmcam) ) 

2154 return -EFAULT; 

2155 

2156 ibmcam->compress = 0; 

2157 ibmcam-?curframe = -1; 

2158 ibmcam-»cursbuf = 0; 

2159 ibmcam-?5scratchlen + 0; 

2160 

2161 /* Alternate interface 1 is is the biggest frame size */ 
2162 i = usb_set_interface(dev, ibmcam-^iface, ibmeam->ifaceAltActive) : 
2163 if (i <0) { 

2164 printk (KERN ERR "usb set interface error\n’) ; 

2165 ibmcam->last_error = i; 

2166 return -EBUSY; 

2167 } 

2168 usb ibmcam change lighting conditions (ibmcam) ; 
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2169 
2170 
2171 
2172 
2173 
2174 
2175 
2176 
2177 
2178 
2179 
2180 
2181 
2182 
2183 
2184 
2185 
2186 
2187 
2188 
2189 
2190 
2191 
2192 
2193 
2194 
2195 
2196 
2197 
2198 
2199 
2200 
2201 
2202 
2203 
2204 
2205 
2206 
2207 
2208 
2209 
2210 
2211 
2212 
2213 
2214 
2215 
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usb ibmeam set sharpness(ibmcam) ; 
usb ibmcam reinit iso(ibmcam, 0); 


/* We double buffer the Tso lists */ 


for (i20; i < TBMCAM NUMSRUF; i++) { 
int j, k; 
urb t *urb; 


urb = usb alloc urb(FRAMES PER DESC); 

if (urb == NULL) { 
printk(KERN ERR "ibmcam init isoc: usb init isoc( ) failed. W^); 
return —ENOMEM; 

} 

ibmcam—>sbuf [i]. urb = urb; 

urb->dev = dev; 

urb-2context - ibmcam; 

urb->pipe = usb rcvisocpipe(dev, ibmcam—>video_endp) ; 

urb-^transfer flags - USB 1S0 ASAP; 

urb-^transfer buffer - ibmcam—>sbuf [i]. data; 

urb->complete - ibmcam isoc irq; 

urb-»number of packets = FRAMES PER DESC; 

urb-»transfer buffer length = ibmcam—->iso packet len * FRAMES PER DESC; 

for (j-k-0; j < FRAMES PER DESC; j++, k += ibmcam-^iso packet len) | 
urb-^»iso frame desc[jl.offset = k; 
urb->iso frame desc|jl.length = ibmcam->iso packet len; 


/* Link URBs into a ring so that they invoke each other infinitely x*/ 
for (i-0; i < IBMCAM NUMSBUF; i++) | 
if ((i+1) < IBMCAM NUMSBUT) 
ibmcam->sbuf[il. urb->next = ibmcam->sbuf[it1]. urb; 
else 
ibmcam->sbuf li]. urb->next = ibmcam >sbuf lO]. urb; 


j 


/* Submit all URBs */ 
for (i20; i < TBMCAM NUMSBUF; i++) { 
err = usb submit urb(ibmcam-^sbuf [i]. urb); 
if (err) 
printk(KERN ERR “ibmneam init isoc: usb run isoc(%d) ret %d\n", 
i, err}; 


ibmeam—>streaming = 1: 
/* printk (KERN_DEBUG "streaming-l ibmcam—>video _endp-$%02x\n", 
ibmcam-^video endp); */ 
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2216 return 0; 
2217 } 


我 们 把 注意 力 集中 在 从 2172~2212 行 之 间 这 些 代 码 上 。 常 数 IBMCAM_NUMSBUF 在 
drivers/usb/ibmcam.h 中 定义 为 2, 表示 采用 的 是 双 缓 冲 , 但 是 显然 也 可 以 通过 改变 其 定义 而 改 成 多 缓冲 。 
对 于 单 向 、 实 时 要 求 又 不 那么 高 的 视频 信号 ， 一 般 双 缓冲 就 可 以 了 ; 对 交互 式 的 音频 信号 《如 电话 ) 
则 有 哆 高 的 要 求 。 代 码 中 道 过 一 个 for 循 坏 为 两 个 缓冲 区 分 别 建立 起 urb 数据 结构 ， 并 加 以 初始 化 。 这 
里 的 常数 FRAMES PER DESC 定义 为 32。 从 2186 行 可 以 看 出 所 使 用 的 管道 是 通过 usb_revisocpipe( ) 
取得 的 ， 因 此 是 输入 方向 的 等 时 传输 。 摄 像 机 没有 输出 方向 的 等 时 传输 。 此 外 ， 从 2189 行 可 见 ， 摄 像 
村 的 中 断 服 务 程序 是 ibmcam_isoc_irq( )。 

BRIG, JERE 2198 一 2204 行 ， 这 里 把 这 些 〈 两 个 或 更 多 ) urb 数据 结构 通过 结构 中 的 指针 next 连 成 
人 

最 后 ，2207 一 2212 行 义 通过 一 个 循环 提交 这 些 urb 结构 。 这 样 ， 对 于 这 个 摄像 机 而 言 ， 每 秒 钟 将 、 
进行 两 次 等 时 传输 ， 每 次 包括 32 帧 画面 ， 一 共 是 64 帧 ， 但 是 也 可 以 通过 改变 FRAMES PER DESC 
的 定义 加 以 改变 。 每 当 完 成 其 中 的 -… 次 传输 ， 即 32 帧 画面 的 传递 时 ， 就 产生 一 次 中 断 ， 在 上 述 的 
uhci_transfer_result( ) 中 先 将 刚 完 成 的 传输 请 求 脱 链 ， 再 顺 着 指针 next 找到 上 一 次 已 经 脱 链 的 传输 请 求 
(1445 行 )， 并 再 次 提交 这 个 传输 请 求 (1467 行 )， 最 后 调用 摄像 机 的 中 断 服 务 程序 (1473 行 )。 


[uhci_interrupt( ) > uhci transfer result( ) > ibmcam_isoc_irq( )] 


1212 static void ibmcam isoc irq(struct urb *urb) 


1213 { 

1214 int len; 

1215 struct usb ibmcam *ibmcam = urb->context; 
1216 struct ibmcam sbuf *sbuf; 

1217 int i; 

1218 

1219 /* We don't want to do anything if we are about to be removed! */ 
1220 if (1 TBMCAM IS OPERATIONAL (ibmcam)) 

1221 return; 

1222 

1223 #if 0 
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1233 #endif 


1234 

1235 if (!ibmcam->streaming) | 

1236 if (debug >= 1) 

1237 printk (KERN DEBUG "ibmcam: oops, not streaming, but interrupt\n”) ; 
1238 return; 

1239 } 

1240 

1241 sbuf = &ibmcam-^sbuf[ibmcam-?cursbuf]; 

1242 

1243 /* Copy the data received into our scratch buffer */ 
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1244 len = ibmeam compress isochronous(ibmcam, urb); 
1245 

1246 ibmcam-^urb count-**; 

1247 ibmcam-»urb length = len; 

1248 ibmcam-»data count += len; 

1249 

1250 #if 0 


1257 #endif 


1258 
1259 /* Tf we collected enough data lei's parse! */ 
1260 if (ibmcam->scratchlen) { 
1261 /* If we don’t have a frame we’ re current working on, complain */ 
1262 if (ibmcam-^curframe >= 0) 
1263 ibmcam_parse data(ibmcam) ; 
1264 else { 
1265 if (debug >= 1) 
1266 printk (KERN_DEBUG 
“ibmcam: received data, but no frame available\n’): 
1267 } 
1268 } 
1269 
1270 for (i = 0; i < FRAMES PER DESC; i++) { 
1271 sbuf—'urb-^iso frame desc[i].status = 0; 
1272 sbuf-^»urb-»5iso frame desc[il.actual length = 0: 
1273 } 
1274 
1275 /* Move to the next sbuf */ 
1276 ibmcam->cursbuf = (ibmcam->cursbuf + 1) % TBMCAM NUMSBUF; 
1277 
1278 return; 
1279  ] 


这 里 主要 的 操作 是 1244 行 对 ibmcam compress. isochronous( ) 的 调用 ,这 将 把 从 摄像 机 读 入 的 原始 
数据 复制 到 另 一 个 绥 冲 区 中 。 这 些 原 始 数据 在 经 过 压缩 的 , 所 以 还 要 通过 ibmcam parse. data( ) 解 压缩。 
解除 了 压缩 的 数据 就 留 侍 绥 冲 区 中 ， 等 待 应 用 进程 道 过 系统 调用 读 取 。 在 等 时 传输 中 ， 对 缓冲 区 的 写 
入 和 读 出 通常 没有 互 锁 和 同步 ， 如 果 应 用 进程 尚未 把 前 -次 传输 中 来 自 摄 像 机 的 数据 读 走 ， 而 后 面 的 
数据 又 米 了 ， 就 会 把 前 ”次 的 数据 憩 盖 掉 。 

对 摄像 机 的 数据 通道 只 有 输入 没有 输出 ， 所 以 其 系统 调用 write( ) 为 空 操作 ， 而 read( ) 的 实现 则 为 


ibmcam read( ). 


2743 static long ibmcam read(struct video device *dev, char *buf, 
unsigned long count, int noblock) 
9144 { 
2745 struct usb ibmcam *ibmcam = (struct usb ibmcam *) dev; 
2746 int frmx = -1; 
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2747 volatile struct ibmcam frame *frame; 
2148 
2749 if (debug >= 1) 
2750 printk (KERN_DEBUG 
“ibmcam read: %ld bytes, noblock=%d\n”, count, noblock) ; 
2751 
2752 if (!IBMCAM TS OPERATIONAL (ibmcam || (buf == NULL)) 
2753 return -EFAULT; 
2154 
2755 /* See if a frame is completed, then use it. */ 
2156 if (ibmcam—>frame[0]. grabstate >= FRAME DONE)  /* DONE or ERROR */ 
2151 frmx = 0; 
2758 else if (ibmcam-^frame[l].grabstate >= FRAME DONE)/* DONE or ERROR */ 
2159 frmx = 1; 
2760 
2761 if (noblock && (frmx == -1)) 
2162 return —EAGAIN; 
2763 
2764 /* If no FRAME DONE, look for a FRAME GRABBING state. */ 
2765 /* See if a frame is in process (grabbing), then use it. */ 
2766 if (frmx == -1) | 
2767 if (ibmcam-^frame[0].grabstate == FRAME GRABBING) 
2768 frmx = 0; 
2769 else if (ibmcam—>frame[1]. grabstate == FRAME_GRABBING) 
2770 frmx = 1; 
2771 } 
2772 
2773 /* lf no frame is active, start one. */ 
2774 if (frmx == -1) 
2775 ibmcam new frame(ibmcam, frmx = 0); 
2776 
2777 frame = &ibmcam—>frameLfrmx] ; 
2778 
2779 restart: 
2780 if (!IBMCAM TS OPERATIONAL (ibmcam) ) 
2181 return -ETO; 
2182 while (frame->grabstate == FRAME GRABBING) { 
2783 interruptible sleep on((void *) &frame—>wq) ; 
2784 if (signal_pending(current)) 
2785 return —EINTR; 
2786 j 
2787 
2788 if (frame-^grabstate == FRAME ERROR) | 
2189 frame-?bytes read = 0; 
2790 if (ibmcam new frame(ibmcam, frmx)) 
2791 printk (KERN ERR "ibmcam read: ibmcam new frame errorNn ) ; 
2192 goto restart; 
2193 } 
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2794 
2795 if (debug >= 1) 
2796 printk (KERN DEBUG 
"ibmcam read: frmx=%d, bytes read=%ld, scanlength=%ld\n’, 
2797 frmx, frame->bytes_read, frame->scanlength) ; 
2798 
2799 /* copy bytes to user space; we allow for partials reads */ 
2800 if ((count + frame-^bytes read) > frame—>scanlength) 
2801 count = frame-2scanlength - frame—^bytes read; 
2802 
2803 if (copy to user(buf, frame->data + frame-^bytes read, count)) 
2804 return -EFAULT; 
2805 
2806 frame-»bytes read += count: 
2807 if (debug >= 1) 
2808 printk(KERN DEBUG 
"ibmcam read: {copy} count used=%ld, new bytes read=%ld\n’, 
2809 count, frame->bytes read); 
2810 
2811 if (frame~>bytes_read >= frame—>scanlength) { /* All data has been read */ 
2812 frame-^5bytes read = 0; 
2813 
2814 /* Mark it as available to be used again. */ 
2815 ibmcam-^frame|frmx]. grabstate = FRAME UNUSED; 
2816 if (ibmcam new frame (ibmcam, frmx ? 0 : 1)) 
2817 printk (KERN ERR “ibmcam read: ibmcam new frame returned error\n’): 
2818 ] 
2819 
2820 return count; 
2821 ] 
这 段 代 码 就 留 给 读者 了 。 


最 后 ， 我 们 还 要 看 一 下 对 传输 超时 的 处 理 。 对 控制 传输 和 成 块 传输 的 调度 是 不 预先 分 配 带 宽 的 ， 
所 以 有 可 能 虽然 把 一 个 传输 (特别 是 成 块 传输 ) 挂 入 了 队列 ， 却 很 长 时 间 不 能 得 到 执行 。 另 :方面 ， 
我 们 在 前 面 也 提 到 过 ， 如 果 目 标 设备 “时 不 能 完成 所 要 求 的 传输 ， 例 如 要 求 从 扫描 器 读 入 数据 ， 可 是 
扫描 器 老 是 因为 无 数据 可 读 而 返回 NAK， 则 也 会 造成 超时 。 在 这 些 情况 下 应 该 有 个 机 制 ， 让 等 待 时 间 
过 长 的 传输 请 求 因 超时 而 失败 。 为 此 ， 在 根 集中 器 的 初始 化 过 程 中 通过 rh_init_int_timer( ) 设 置 了 一 个 
ERTA fe CPU 每 隔 一 段 时 间 就 来 反 描 一 遍 USB. 总 线 的 urb_list， 检 查 各 个 传输 是 在 已 经 超时 。 这 个 
EXP SB ZE drivers/usb/uhci.c "P: 





1774 /* Root Hub INTs are polled by this timer */ 
1775 static int rh init int timer (struct urb *urb) 


1776 { 

1777 struct uhci *uhci = (struct uhci *)urb->dev->bus->hcpriv:; 
1778 

1779 uhci-?rh. interval = urb-^interval; 
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1780 init_timer (&uhci->rh. rh int timer); 
1781 uhei-erh. rh_int_timer. function = rh int timer do; 
1782 uhci-^rh.rh int timer.data = (unsigned long) urb: 
1783 uhci~>rh. rh_int_timer. expires = 
jiffies + (HZ * (urb->interval < 30 ? 30 : urb->interval)) / 1000; 
1784 add timer(&uhci— rh.rh int timer); 
1785 
1786 return 0; 
1787  ] 


当 定 时 器 到 点 时 ，CPU 就 会 执行 中 iot_timer do0， 其 代码 就 在 同一 文件 中 ; 


1730 static void rh int timer do (unsigned long ptr) 


1731 { 
1732 struct urb *urb = (struct urb *)ptr; 
1733 struct uhci *uhci = (struct uhci *)urb->dev—>bus—>hepriv:; 
1734 struct list head *tmp, *head = &uhci-^urb list; 
1735 struct urb priv *urbp; 
1736 . int len; 
1731 unsigned long fiags; 
1738 
1739 if (uhci->rh. send) { 
1740 len = rh send irq(urb); 
1741 if (len > 0) { 
1742 urb-^actual length = len; 
1743 if (urb complete) 
1744 urb-?complete (urb) ; 
1745 } 
1746 } 
1747 
1748 nested lock(&uhci-^urblist lock, flags); 
1749 tmp = head->next; 
1750 while (tmp !- head) | 
.1751 struct urb *u = list entry(tmp, urb t, urb list); 
1752 
1753 tmp = tmp->next; 
1754 
1755 urbp = (struct urb priv *)u->hepriv: 
1756 if (urbp) { 
1757 /* Check if the FSBR timed out */ 
1758 if (urbp-^fsbr && 
time after eq(jiffies, urbp—>inserttime + IDLE TIMEOUT)) 
1759 uhci fsbr timeout(uhci, u); 
1760 
1761 /* Check if the URB timed out */ 
1762 if (u->timeout && time after eq(jiffies, u->timeout)) { 
1763 u->transfer_ flags |= USB ASYNC UNLINK | USB TIMEOUT KTLLED; 
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1764 uhci unlink urb(u); 

1765 } 

1766 } 

1767 } 

1768 nested unlock(&uhci-^urblist lock, flags); 
1769 

1770 rh init int timer(urb); 

1771 ] 


这 里 通过 - AN while (8373 148 uhci 结构 中 的 urb. list 队列 ， 检 查 两 种 超时 。 一 种 是 FSBR SEI. 4i 
果 一 个 传输 请 求 旧 求 通过 回收 每 个 框架 中 的 剩余 时 间 使 其 尽快 得 到 执行 ， 而 实际 上 却 在 
IDLE_TIMEOUT, 即 50 毫秒 以 后 仍 未 得 到 执行 ,使 说 明 系 统 的 负荷 很 大 ， 根本 就 没有 剩余 时 间 可 以 回 
Wr, 因此 通过 uhei_fsbr_timeout( ) 拆 除 为 此 而 建立 的 链接 。 另 一 种 便 是 传输 本 身 的 超时 。 读者 曾经 看 到 ， 
在 提交 传输 请 求 时 说 明了 愿意 等 待 的 时 间 。 根 据 当 时 的 时 间 和 愿意 等 待 的 时 间 ， 就 可 以 计算 出 在 什么 
时 候 超时 ， 这 就 是 这 里 的 u->timeout。 如 果 当 前 的 时 间 已 经 过 了 这 一 点 ， 那 就 调用 uhci unlink urb(), 
将 这 个 传输 请 求 从 调度 系统 中 脱离 出 米 ， 并 唤醒 正在 等 竺 的 进程 ， 就 好 像 对 这 个 传输 请 求 的 执行 已 经 
失败 了 一 样 。 最 后 ， 在 完成 了 扫描 以 后 ， 又 调用 rh_init_int_timer( ) 再 次 设置 好 定时 器 ， 使 整个 过 程 周 
Ph. BE uhei_unlink_urb( ) 的 代码 也 在 drivers/usb/uhci.c 中 ， 我 们 就 把 它 留 给 读者 了 。 


8.10 系统 调用 select() 以 及 异步 输入 /输出 


我 们 以 前 讲 过 ， 一 个 已 打开 文件 可 以 是 常规 文件 ， 也 可 以 是 设备 文件 ， 还 可 以 是 为 进程 间 遂 信和 而 
建立 的 管道 或 插口 。 当 已 打开 文件 是 常规 文件 时 ， 从 文件 的 渎 出 宏观 上 是 同步 的 ， 只 要 尚 木 读 到 文件 
的 未 尾 ， 虽 然 启动 读 操 作 的 进程 也 可 能 受阻 而 进入 睡 昭 ， 等 待 从 做 盘 上 读 入 ， 但 是 我 们 知道 这 个 进程 
在 一 个 有 限 的 短 时 期 以 后 一 定 会 被 唤 瞩 ， 这 个 时 期 的 长 短 在 很 大 程度 上 是 可 预测 的 。 如 果 已 经 读 到 了 
文件 的 末尾 ， 则 更 是 立即 就 可 知道 。 可 是 ， 对 - 些 外 部 设备 或 进程 间 通 信 机 制 的 读 出 就 不 同 了 。 就 拿 
键盘 来 说 吧 , 如 果 一 个 应 用 进程 因为 读 键盘 (如 getchar( ) 受 阻 而 进入 睡眠 , 那么 我 们 根本 无 法 预测 这 个 
进程 什么 时 候 会 被 唤醒 ， 因 为 我 们 无 法 预测 操作 人 员 何 时 会 按键 盘 。 从 这 个 意义 上 说 ， 对 设备 的 读 文 
件 操作 有 可 能 完全 是 异步 的 。 对 进程 间 通 信 机 人 制 的 读 文件 操作 也 是 样 。 对 于 这 样 的 已 打开 文件 ， 我 
们 和 更 倾向 于 称 之 为 “LO 通道 ”。 如 果 一 个 进程 的 上 作 就 是 等 待 来 自 某 一 个 IO 通道 的 输入 并 作出 反应 ， 
那 就 可 以 用 大 家 熟悉 的 无 穷 while 循 坏 米 实现 ， 那 就 是 ， 启 动 读 操作 ， 如 果 没 有 输入 数据 就 睡 虑 等 街 ， 
被 唤醒 就 说 明 有 了 输入 ， 读 取 输 入 数据 并 作出 反应 后 再 启动 读 操 作 ， 如 此 循环 ， 直 至 永远 。 可 是 ， 如 
果 输 入 有 可 能 来 自 两 个 或 更 多 个 VO 通道 呢 ? 我 们 前 面 提 到 过 一 个 用 来 实现 “ 伪 终 端 ” 的 进程 就 是 一 
个 很 好 的 例子 : 这 个 进程 一 方面 监视 着 键盘 (包括 鼠标 器 ),， 一 方面 监视 着 一 个 (或 多 个 ) 进 程 间 通信 和 氏 道 ， 
无 论 从 哪 - -个 通道 有 了 输入 都 要 马上 作出 反应。 可 是 ， 如 果 应 用 进程 正在 睡眠 等 待 键盘 输入 ， 而 进程 
间 通 信 管 道中 却 有 了 数据 ， 则 应 用 进程 无 法 及 时 读 出 管道 中 的 数据 并 作出 反应 ， 因 为 从 管道 的 角度 看 
该 进程 并 不 在 睡眠 等 待 来 自 这 个 管道 的 输入 ， 从 而 不 会 将 其 喊 醒 。 

在 实际 应 用 中 ， 应 用 软件 常常 需要 同时 监视 车 干 个 VO 通道 ， 等 待 来 自 其 中 任何 一 个 通道 的 输入 
数据 并 作出 反应 。 能 够 实现 这 个 目标 的 方法 当然 是 有 的 ， 例 如 计 应 用 进程 先 通 过 系统 调用 fend( ) 把 这 
些 遂 道 的 ONONBLOCK 标志 位 设 成 1， 然 后 再 通过 系统 调用 read( ) 读 ， 此 时 如 果 没 有 数据 可 读 就 会 
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立即 返回 一 1， 而 不 会 进入 睡眠。 换言之 ， 就 臣 让 应 用 进程 工作 于 “ 查 澳 ” 方 式 ， 不 断 地 轮流 查询 各 个 
通道 。 这 样 ， 从 应 用 进程 本 里 的 角度 看 虽然 可 以 达到 日 的 ， 但 是 从 系统 的 角度 看 却 大 大 降低 了 系统 的 
效率 ， 在 多 数 情况 下 是 个 可 接受 的 。 述 有 个 办 法 是 利用 进程 问 通 信 机 制 中 的 报 文 队 区 ， 用 一 个 报 文 队 
列 来 作为 输入 数据 的 汇集 点 。 就 好 像 信箱 一 样 : 信箱 只 有 一 个 ， 信 件 却 可 以 来 日 四 和 八方 ， 全 部 汇 集 
到 一 个 信箱 中 (所 以 在 有 的 系统 中 把 报 文 队 麟 称 作 “信箱 ”)。 但 是 ，Linux 内 核 中 的 设备 驱动 程序 并 不 
能 直接 将 输入 数据 转换 成 一 个 报 文 ， 并 投递 到 报 文 队列 中 ， 所 以 还 得 为 键盘 输入 设立 一 个 服务 进程 。 
这 个 进程 就 监视 键盘 (包括 鼠标 器 ) “个 通道 , 只 时 有 输入 就 把 它 转换 成 报 文 ， 并 发 送 到 指定 的 报 文 队 列 
中 。 在 相反 的 方面 上 ， 对 来 自 进程 问 通信 管道 的 数据 也 可 以 作 相似 的 处 理 。 这 样 周 然 也 能 达到 要 求 ， 
但 是 系统 中 多 了 两 个 进程 ， 增 加 了 进程 调度 的 负担 ， 也 会 降低 系统 的 效率 (不 过 不 像 亲 个 方法 那么 严 
重 )。 

因此 ， 比 较 理想 的 办 法 是 让 进程 的 单 目标 的 睡 虐 等 待 变 成 多 月 标的 睡 虐 等 待 。 如 果 能 这 样 ， 则 


输入 数据 时 ， 相 应 的 设备 驱动 程序 就 会 把 睡眠 中 的 进程 唤醒 。 这 样 ， 既 达到 了 上 述 的 目标 ， 又 保持 了 
较 高 的 效率 。 

同样 的 问题 也 存在 于 答 出 控 作 ， 因 为 有 时 候 需 要 为 输出 而 同时 等 待 若 十 个 通道 ， 等 待 这 些 通 道中 
的 某 “个 或 几 个 满足 可 以 进行 输出 操作 的 条 件 。 

Linux/Unix 为 此 提供 了 一 个 系统 调用 select( )， 内 核 中 的 实现 为 sys_select( )， 其 代码 在 fs/select.c 


257 asmlinkage long 
258 sys_select (int n, fd_set *inp, fd set *outp, fd_set *exp, struct timeval *tvp) 


259 { 

260 fd_set_bits fds; 

261 char *bits; 

262 long timeout; 

263 int ret, size; 

264 

265 Limeout = MAX SCHEDULE TIMEOUT; 

266 if (tvp) d 

267 time_t sec, usec; 

268 

269 if ((ret = verify _area(VERIFY READ, tvp, sizeof (*tvp))) 
270 || (ret = | get user(sec, &tvp-^tv sec)) 
211 || (ret - get user(usec, &tvp-^tv usec))) 
212 goto out nofds; 

213 

214 ret = -EINVAL; 

275 if (sec < 0 || usec < 0) 

276 goto out_nofds; 

277 

278 if ((unsigned long) sec < MAX SELECT SECONDS) { 
279 timeout = ROUND UP(usec, 1000000/HZ) : 

280 timeout += sec * (unsigned long) HZ; 
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ret = -EINVAL; 
if (n < 0) 
goto out_nofds; 


if (n > current—>files—>max_ fdset) 
n = current->files—>max fdset; 


/* 
* We need 6 bitmaps (in/out/ex for both incoming and outgoing), 
* since we used fdset we need to allocate memory in units of 
* long-words. 
*/ 
ret = -ENOMEM; 
size = FDS BYTES (n); 
bits = select bits alloc(size); 
if (tbits) 
goto out nofds; 


fds. in = (unsigned long *) bits; 

fds. out = (unsigned long *) (bits + size); 
fds. ex = (unsigned long *) (bits + 2x*size); 
fds.res in = (unsigned long *) (bits + 3*size); 
fds.res out = (unsigned long *) (bits + 4*size); 
fds.res ex = (unsigned long *) (bits + 5*size); 


if ((ret = get fd set(n, inp, fds.in)) || 


(ret = get fd set(n, outp, fds.out)) || 
(ret = get fd set(n, exp, fds. ex))) 
goto out; 


zero fd set(n, fds.res in); 
zero fd set(n, fds.res out); 
zero fd set(n, fds.res ex); 


ret - do select(n, &fds, &timeout); 


if (tvp && ! (current-^personality & STICKY TIMEOUTS)) { 
time t sec = 0, usec = 0; 
if (timeout) { 
sec = timeout / HZ; 
usec = timeout % HZ; 
usec *= (1000000/HZ) ， 
} 
put user(sec, &lvp->tv_sec) ; 
put user(usec, &tvp->tv usec); 
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329 if (ret < 0) 

330 goto out; 

33] if (tret) 4 

332 ret = -ERESTARTNOHAND ; 

333 if (signal_pending (current) ) 
334 goto out; 

335 ret = 0; 

336 j 

337 

338 set fd set(n, inp, fds.res in); 
339 set fd set(n, outp, fds.res out); 
340 set fd set(n, exp, fds.res ex); 
341 

342 out: 

343 select bits free(bits, size); 
344 out nofds: 

345 return ret; 

346  ] 


参数 tvp 指向 一 个 timeval MHA, 6 HH EE e ERE PE BI RE, n dee A O 就 表示 无 限期 
的 睡眠 等 待 ， 从 系统 调用 返回 时 ， 这 个 数据 结构 表明 还 剩 下 未 用 完 的 睡眠 时 间 。 参 数 inp. outp. exp 
都 是 指向 fd set 数据 结构 的 指针 ， 这 种 数据 结构 是 关 十 已 打开 文件 的 位 图 ， 位 图 中 的 每 一 位 都 代表 着 
当前 进程 的 一 个 已 打开 文件 。 早期 的 系统 中 都 用 一 个 32 位 长 字 作 为 已 打开 文件 位 图 ， 因 为 那 时 候 一 个 
进程 最 多 只 能 有 32 个 山 打 开 文 件 ， 后 来 则 改 成 可 以 灵活 定义 的 fd. set 数据 结构 。 

调用 sys_select( ) 时 参数 inp 所 指 的 位 图 表示 当前 进程 在 睡 虑 中 要 等 待 来 自 哪些 已 打开 文件 的 输 
Ay 返回 时 则 表明 哪些 已 打开 文件 中 已 经 有 了 输入 。 类 似 地 ，outp 表示 当前 进程 在 睡眠 中 卓 等 待 对 哪 
HB LF TT SCAR AY SS BATE; 返回 时 则 表明 对 哪 一 些 已 打开 文件 的 写 操作 已 可 立即 进行 。 全 十 exp， 则 用 
来 监视 在 哪 一 些 通道 中 发 生 了 异常 。 最 后 ， 参 数 n 表示 调用 时 的 参数 表 中 有 几 个 位 图 。 所 有 这 些 位 图 
以 及 timeval 数据 结构 都 在 用 户 空间 , 所 以 先 要 通过 __get_user( ) 和 __copy_from_user( ) 从 用 户 空间 把 这 
些 数 据 结构 复制 到 内 核 中 ， 返 回 时 则 要 反 过 来 遂 过 put_user( ) 和 __copy_to_user( ) 从 内 核 中 复制 到 上 用户 
空间 。 读 者 对 这 些 代 码 应 该 已 经 熟悉 了 。 

由 于 3 个 位 图 各 自 都 有 “上 归 求 ”和 “结果 ”两 个 版 本 ， 在 操作 的 过 程 中 一 共 需 要 6 个 位 图 。 所 以 ， 
先 要 分 配 一 小 块 空间 用 十 这 6 个 位 图 , 并 通过 get _fd_set() 把 3 人 个“ 要求” 位 图 从 用 户 空间 复制 过 来 (308 一 - 
310 fT). KX get_fd_set( ) 的 代码 在 include/linux/poll.h FP: 


[sys select( ) > set fd set ( )] 


52  /* 

53 * We do a VERIFY WRITE here even though we are only reading this time: 
54 * we ]l write to it eventually.. 

55 * 

56 * Use "unsigned long" accesses to let user-mode fd set's be long-aligned. 
51 */ 

58 static inline 
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59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
11 


Linux P3 cU f C898 SEA) Pr. C TD 


int get fd set(unsigned long nr, void *ufdset, unsigned long *fdset) 
{ 
nr = FDS BYTES (nr) ; 
if (ufdset) | 
int error; 
error - verify area(VERIFY WRITE, ufdset, nr); 
if (‘error && | copy from user(fdset, ufdset, nr)) 
error = —EFAULT; 
return error; 
} 
memset (fdset, 0, nr); 
return 0; 


) 
操作 的 主体 是 do_select( )， 其 代码 在 fs/selecLc P, FATA Eu. 


[sys_select( ) > do. select( )] 


163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 


位 图 
所 有 


int do select(int n, fd set bits *fds, long *timeout) 
{ 

poli table table, *wait; 

int retval, i, off; 

long | timeout = *timeout; 


read lock(&current-^files-»file lock); 
retval = max select fd(n, fds); 
read unlock(&current-^files-^file lock); 


if (retval < 0) 
return retval; 
n = retval; 


poll initwait (&table) ; 
wait = &table; 
if (! timeout) 

wait = NULL; 
retval = 0; 


参数 fds 是 个 指针 ， 指 向 一 个 fd set bits Sit, ZETA IUE 6 个 工作 位 图 ， 其 路 前 3 PA “BR” 
。170 行 通过 max_select_fd( ) 根 据 这 3 个 位 图 计算 出 本 次 操作 所 涉及 最 大 的 己 打开 文件 号 是 什么 ， 
号 码 高 于 这 个 数值 的 已 打开 文件 都 与 本 次 操作 无 关 。 

这 里 用 到 的 数据 结构 poll_table 定义 于 include/linux/poll.h: 


typedef struct poli table struct { 
int error; 
struct poll table page * table; 
} poll table; 
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其 主体 poll table page 定义 于 fs/select.c: 


27 struct poll table entry | 


28 struct file * filp; 

29 wait queue t wait; 

30 wait queue head t * wait address; 
31 Hh 

32 

33 struct poll table page | 

34 struct poll table page * next; 

35 struct poll table entry * entry; 
36 struct poll table entry entries[0]; 
af 4 


当 一 个 进程 要 进入 睡眠 ， 侧 想 要 某 个 设备 的 驱动 程序 在 设备 的 状态 发 生变 化 时 将 其 唤醒 ， 就 得 妥 
准备 好 -一 个 wait queue t 数据 结构 ， 并 将 这 个 数据 结构 挂 入 日 标 设 备 的 某 个 矢 待 队列 中 。 读 者 以 前 曾 
多 次 看 到 ， 在 等 待 对 象 单一 时 一 般 部 把 wait queue t 数据 结构 建立 和 在 堆栈 中 。 可 是 ， 在 有 多 个 等 答对 
象 时 就 不 能 寺 样 了 。 另 一 方面 ， 在 有 多 个 等 街 对 象 、 从 而 有 多 个 wait queue t 数据 结构 时 ， 要 有 个 既 
有 效 、 又 灵活 ， 便 于 扩充 的 方法 将 这 些 wait queue t MAAR, bea MILA AT 
设计 的 。 这 里 的 poll table entry 数据 结构 既是 对 wait queue t 的 扩充 ， 又 是 对 它 的 “包装 ”。 此 外 ， 
poll. table. page 结构 中 数组 entries[ ] 的 下 标 为 0， 表示 该 数组 的 大 小 可 以 动态 地 人 简 定 。 实 际 使 用 时 总 是 
分 配 个 页 面 ， 页面 中 能 容纳 几 个 poll_table_entry 结 构 ， 这 个 数组 就 是 多 类。 使 用 中 指针 entry 总 是 指 
向 entries[ ] 中 的 第 一 个 空闲 的 poll, table entry 结构 , 根据 需要 动态 地 分 配 entries[ ] 中 的 表 项 。 一 个 页 出 
用 完了 ， 就 再 分 配 一 个 ， 遂 过 指针 next 连 成 一 条 单 链 。 

函数 do select( ) 中 定义 了 一 个 局 部 的 poll table 数据 结构 table, 177 行 先 对 其 进行 初始 化 
(include/linux/poll.h): 


[sys select( ) > do select( ) > poll_initwait( )] 


28 static inline void poll initwait (poll table* pt) 


29 { 

30 pt-^error = 0; 

31 pt-^table = NULL; 
32 二 


现在 的 poll table 还 只 是 个 空 架 子 ， 还 没有 为 其 分 配 任何 页 面 ， 因 为 还 不 知道 到 底 需 要 多 少 。 完 成 
了 这 些 准 备 以 后 ，CPU WAT AEI for 循环 ， 下 常情 况 下 - 直 要 到 监视 中 的 某 个 已 打 关 文 件 中 
有 了 输入 或 满足 了 其 他 等 待 条 件 ， 或 者 指定 的 睡眠 等 待 时 间 已 经 到 期 或 者 当前 进程 接收 到 了 信和 与 时 
才 会 结束 。 


[sys_select( ) > do_select( )] 


182 foro 
183 set current state(TASK INTERRUPTTBLE) ; 
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184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
225 
226 
227 
228 
229 
230 
231 
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for G =0;i<n; it+) { 


unsigned long bit = BIT(i); 
unsigned long mask; 
struct file *filc; 


off = i / NPDBITS; 

if (!(bit & BITS(fds, off))) 
continue; 

file = fget (i): 

mask = POLLNVAL; 

if (file) { 
mask = DEFAULT POLLMASK; 


if (file-^f op && file->f_op—poll) 
mask = file->f op->poll (file, wait); 


fput (file); 

} 

if ((mask & POLLIN SFT) && ISSET (bit, 
SET (bit, RES IN(fds, off)) ; 
retval++; 
wait = NULL; 

} 


if ((mask & POLLOUT_SET) && ISSET (bit, 


SET (bit, ^ RES OUT (fds, off)): 
retval**; 
wait = NULL; 

) 

if ((mask & POLLEX SET) && ISSET (bit, 
SET (bit, | RES EX(fds, off) ; 


IN(fds,off))) { 


OUT (fds, of f))) ( 


EX(fds, of f))) 1 


retval++; 
wait = NULL; 
} 
} 
wait = NULL; 
if (retval || ! timeout || signal_pending (current) ) 
break; 


if(table. error) 1 


} 


retval = table. error: 
break; 


__ timeout = schedule timeout( |timeout); 


current->state = TASK RUNNING: 


poll freewait (&table) ; 


/[* 


* Up-to-date the caller timeout. 


*/ 
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232 *timeout = __ timeout; 
233 return retval; 
234 |] 


在 这 个 无 穷 for 循环 (182 一 224 行 ) 中 ，CPU 通过 另 一 个 内 层 for 循 坏 (184 一 215 行 ) 对 “监视 位 图 ” 
进行 一 次 扫描 ， 这 里 的 宏 操 作 BITS( ) 定 义 于 fs/select.c: 


112 #define BITS(fds, n) (* IN(fds, n)|* OUT(fds, n)|* EX(fds, n)) 


如 果 三 个 位 图 之 一 中 的 某 一 位 为 1， 就 对 相应 的 已 打开 文件 作 次 询问 (197 行 )， 并 把 询问 的 结果 
汇集 到 fds 所 指 的 fd, set, bits Xx £T (200—214 行 )。 一 趟 扫描 下 来 以 后 ， 就 检查 一 下 上 述 的 条 件 是 
否 已 经 满足 ， 或 出 了 错 。 如 果 没 有 就 通过 schedule timeout( ) 进 入 睡眠 ， 到 被 唤醒 时 再 在 下 : 轮 循 环 中 
作 妃 一 次 扫描 。 就 这 样 ， 除 第 一 次 以 外 ， 以 后 都 是 在 进程 被 唤醒 时 才 执 行 一 遍 循 入， 所 以 从 本 质 上 讲 
是 一 种 do-while 循环 。 

那么 ， 在 什么 情况 下 会 被 唤醒 昵 ? 首先， 受到 询问 的 已 打开 文件 的 设备 驱动 程序 会 把 当前 进程 通 
过 一 个 wait_queve_t 数据 结构 ， 从 而 poll table entry 数据 结构 ， 挂 入 其 唤醒 队列 ， 使 得 该 设备 的 中 断 
服务 程序 在 接收 到 输入 时 就 会 唤醒 这 个 进程 。 其 次 ， 如 果 指 定 了 时 间 跟 制 ， 则 当时 间 到 点 时 也 会 唤醒 
这 个 进程 ， 这 是 因为 进程 在 进入 睡眠 时 都 指定 了 需要 继续 睡眠 的 时 间 。 最 后 ， 如 果 进 程 接 收 到 了 信和 号 
也 会 被 唤醒 。 

显然 ， 这 里 的 关键 在 于 对 具体 已 打开 文件 ， 即 设备 的 询问 。 从 代码 中 可 以 看 出 ， 这 是 通过 具体 
file operations 数据 结构 中 提供 的 函数 指针 poll 进行 的 。 我 们 以 前 都 把 注意 力 集 中 在 open. read. write 
等 更 为 常用 的 操作 上 ， 有 意 忽略 了 这 个 函数 指针 ， 现 在 要 回 过 来 关注 这 个 操作 了 。 另 一 方面 ， 阅 读 poll 
操作 的 代码 在 某 种 意义 上 也 是 对 有 关内 容 的 一 次 复习 。 

先 看 对 进程 间 通 信 管 道 的 poll 操作 ， 管 道 文件 读 端的 file operations 数据 结构 定义 二 fs/pipe.c H, 
我 们 再 回顾 一 下 : 


412 struct file operations read pipe fops = | 
416 poll: pipe_poll, 


420 s 
可 见 ， 管 道 文件 读 端 的 poll 操作 是 由 pipe_poll( ) 完 成 的 ， 其 代码 也 在 fs/pipe.c 中 : 
[sys select( ) > do select( ) > pipe_poll( )] 


278 /* No kernel lock held - fine */ 


279 static unsigned int 

280 pipe poll(struct file *filp, poll table *wait) 
281 { 

282 unsigned int mask; 

283 struct inode *inode = filp->f dentry—>d inode; 
284 
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285 
286 
287 
288 
289 
290 
29] 
292 
293 
294 
295 
296 
297 


} 
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poll wait(filp, PIPE WAIT(*inode), wait); 


/* Reading only -- no need for acquiring the semaphore.  */ 

mask - POLLIN | POLLRDNORM; 

if (PIPE EMPTY Ceinode) ) 
mask = POLLOUT | POLLWRNORM: 

if (IPIPE WRITERS (*inode) && filp->f version != PIPE WCOUNTER (*inode) ) 
mask |= POLLHUP; 

if (!PIPE READERS (*inode)) 
mask |= POLLERR; 


return mask; 


管道 文件 的 inode 结构 中 有 个 等 待 队列 的 队 头 , 凡是 等 待 着 对 这 个 管道 进行 操作 的 进程 都 通过 一 个 


wait queue t 数据 结构 挂 入 这 个 队列 。 当 管道 的 状态 发 生变 化 时 ,着 有 数据 到 来 或 原来 满 的 缓冲 区 变 空 
时 ， 就 会 唤醒 挂 人 在 这 个 队列 中 的 进 称 。 
宏 操 作 PIPE_WAIT( ) 返 回 这 个 队 头 的 地 址 ， 定 义 于 include/linux/pipe_fs_i-h: 


22 


ftdefine PTPE WAIT (inode) (& (inode). i pipe-^wait) 


这 里 的 poll, wait( ) 是 个 inline 函数， 定义 于 include/linux/poll.h: 


[sys select( ) > do_select( ) > pipe_poll( ) > poll. wait( )] 


22 


23 
24 
25 
26 


{ 


} 


extern inline void poll_wait (struct file * filp, 


wait queue head t * wait address, poll table *p) 


if (p && wait address) 
pollwait(filp, wait address, p): 


操作 的 主体 是 __polljwait( )， 这 个 函数 的 代码 在 fs/select.c 中 : 


[sys_select( ) > do_select( ) > pipe poll( ) > poll wait() > __pollwait( )] 


74 
75 
76 
TT 
18 
49 
80 
81 
82 
83 
84 


void | pollwait (struct file * filp, wait queue head t * wait address, poll table *p) 


{ 
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struct poll table page *table = p->table; 


if (!table || POLL TABLE FULL(table)) { 
struct poll table page *new Lable; 


new table = (struct poll table page *) get free page (GFP KERNEL) ; 
p->error = -ENOMEM; 
set current state (TASK RUNNING) ; 
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85 return; 

86 } 

87 new table-^entry = new table-»entries; 

88 new _ table->next = table; 

89 p->table = new table; 

90 table = new table; 

91 } 

92 

93 /* Add a new entry */ 

94 { 

95 struct poll table entry * entry = table->entry; 
96 table-^entry = entry*l; 

97 get file(filp); 

98 entry--filp = filp; 

99 entry-»wait address = wait address; 

100 init waitqueue entry (&entry—>wait, current); 
101 add wait queue(wait address, &entry~>wait) ; 
102 j 

103 |] 


如 果 还 没有 用 十 poll table page 结构 的 页 面 ， 或 者 最 后 分 配 的 页 面 已 经 用 完 出 不 再 有 空 闪 的 
poll table entry 结构 ， 就 要 为 其 分 配 一个 新 的 页 面 ， 扩 充 其 容 量 。 

然后 将 poll table page 结构 中 的 下 一 个 poll table entry 数据 结构 用 作 连 接 件 ， 通 过 它 内 部 的 
wait queue, t 结构 wait 挂 入 等 待 队 列 wait_address， 而 这 个 等 待 队列 的 队 头 正 是 在 目标 文件 (通道 ) 的 
inode 结构 中 。 在 wait queue, t 结构 中 包含 着 指向 当前 进程 task. struct 结构 的 指针 ， 这 是 存 100 行 通 过 
init_waitqueue_entry( ) 设 置 的 ， 所 以 当 要 将 队列 中 的 进程 唤醒 时 从 wait_queue_t 结构 开始 一 卜 子 就 能 找 
到 相应 进程 的 task_struct 结构 。 

以 前 我 们 常常 看 到 : 当 一 个 进程 受阻 的 时 候 ， 一 旦 把 wait queue t 结构 振 入 一 个 等 竺 队列， 马上 
就 会 通过 schedule( ) 进 入 睡眠。 内 核 代 码 中 还 有 一 组 宏 操 作 wait_event( ) 和 wait_event_interruptible( ), 
把 这 二 者 组 合 在 了 :起 ( 见 第 4 章 )， 以 致 人 们 往往 不 知 不 觉 地 把 挂 入 等 待 队 证 与 进入 睡眠 划 上 了 等 号 。 
其 实 ，--: 个 进程 通过 一 个 wait_queue_t 结构 挂 入 一 个 等 待 队 列 只 是 向 队列 的 “主人 ” 挂 上 一 个 号 ， 让 
它 在 发 生 某 种 事件 时 将 其 唤醒 ， 而 到 底 起 寿 真 的 入 睡 则 仍 有 和 白 由 。“ 唤 醒 ” 一 个 本 来 就 醒 着 的 进程 并 无 
什么 损害 。 在 do_select( ) 操 作 中 ， 就 把 这 二 者 区 分 开 来 了 。 这 里 ， 每 当 查 询 一 个 通道 时 ， 如 果 这 个 通 
道 没 有 数据 可 读 ， 就 都 要 向 该 通道 捍 上 一 个 号 ， 通 过 add_wait_queue( ) 把 一 个 wait queue t £i JT A iX 
通道 的 等 待 对 列 , 但 是 并 不 马上 进入 睡眠 ; 而 是 要 到 对 所 有 的 通道 都 查询 了 一 通 以 后 , 回 到 do_select( ) 
中 ， 如 果 确 实 需要 睡眠 才 会 真 的 进入 睡眠 。 

当然 ， 如 果 最 后 并 没有 睡 卢 ， 或 者 睡眠 以 后 被 其 中 的 一 个 (或 几 个 ) 通 道 唤醒 ， 总 不 能 让 这 些 
wait queue 1 结构 留 在 各 个 等 待 队列 中 ， 所 以 do_select( ) 中 的 227 行 时 通过 poll_freewait( ) 把 所 有 这些 
数据 结构 从 各 个 队列 中 摘 下 来 ( 匈 后 )。 

下 面 我 们 就 来 看 进程 的 唤 瞩 ， 先 看 当 管 道 的 写 端 进程 往 管道 中 写 入 ， 从 而 使 得 读 端 有 了 输入 时 的 
情景 。 读 者 在 第 6 章 小 读 过 pipe write ) 的 代码 ,我 们 在 这 里 再 拒 其 中 与 唤醒 进程 有 关 的 片段 摘录 于 下 
(fs/pipe.c): 
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134 static ssize t 
135 pipe write(struct file *filp, const char *buf, size t count, loff t *ppos) 
136 { 


» 8 «# & #8 «6 


209 do { 

210 /* 

211 * Synchronous wake-up: it knows that this process 
212 * is going to give up this CPU, so it doesnt have 
213 * to do idle reschedules. 

214 */ 

215 wake up interruptible sync(PIPE WAIT (*inode)); 

216 PIPE WAITING WRITERS (*inode) ++; 

217 pipe wait (inode) ; 

218 PIPE WAITING WRITERS (*inode)--; 

219 if (signal pending(current)) 

220 goto out; 

221 if (!PIPE READERS (*inode)) 

222 goto sigpipe; 

228 ) while (!PIPE FREE(*inode)); 

224 ret - -EFAULT; 

225 } 

226 

221 /* Signal readers asynchronously that there is more data. */ 
228 wake up interruptible(PIPE WAIT (*inode)); 

246 } 


至 于 具体 的 唤醒 过 程 ， 读 者 已 经 在 第 4 章 中 阐 读 过 有 关 的 代码 ， 我 们 就 不 重复 了 。 这 里 内 是 指出 ， 
人 在 pipe_write( ) 中 唤醒 的 正 是 在 队列 PIPE_WAIT(*inode) 中 的 进程 ， 也 就 是 这 个 管道 文件 的 inode 数据 
结构 中 的 等 待 队列 ， 与 前 而 读 端 进程 所 在 的 队列 是 一 致 的 。 勇 一 方面 ， 唤 醒 这 个 队列 中 的 进 称 时 ， 从 
队列 中 的 wait queue t. 结构 就 二 接 可 以 找到 相应 进程 的 task struct. 数据 结构 ， 贞 与 是 否 有 
poll_table_entry 和 poll_table_page 等 数据 结构 的 存在 并 无 关系 。 

再 来 看 男 一 个 实例 ， 我 们 假定 监视 中 的 另 一 个 通道 是 女 标 嚣 。 同 样 ， 也 是 从 这 个 设备 的 
file_operations 数据 结构 psaux_fops 开始 ， 这 个 数据 结构 定义 于 drivers/char/pc_keyb.c #: 


994 struct file operations psaux fops = | 


995 read: read aux, 
996 write: write aux, 
997 poll: aux poll, 
998 open: open Aux, 
999 release: release aux, 
1000 fasync: fasync aux, 
100 }; 


这 个 设备 的 查询 操作 是 由 aux_poll( ) 完 成 的 ， 其 代码 在 同 “文件 (pc_keyb.c) 中 : 
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[sys select( ) > do select( ) > aux_poll( )] 


985 
986 
987 


/* No kernel lock held - fine */ 
static unsigned int aux poll (struct file *file, poll table * wait) 
{ 
poll wait(file, &queue—proc_list, wait): 
if (!queue_empty( )) 
return POLLIN ^ POLLRDNORM; 
return 0; 


见 ， 这 里 同样 也 调用 poll, wait( ), ASIDE EIR AAR AIDE inode 数据 结构 中 ， 而 在 时 把 屋 


的 设备 驱动 程序 中 ， 具 体 地 说 是 queue->proc_list。 这 里 的 指针 queue 4t drivers/char/pc_keyb.c H MJER 
Aem, Ja "fh aux queue 数据 结构 ， 定 义 寺 include/linux/pc_keyb.h: 


124 
125 


struct aux queue { 
unsigned long head; 
unsigned long tail; 
wait queue head t proc list; 
struct fasync struct *fasync; 
unsigned char buf[AUX BUF SIZE]; 


结构 中 有 个 成 分 就 是 proc_list， 这 是 个 等 待 队列 头 ， 即 wait queue head t 数据 结构 。 所 以 ， 把 等 
待 队 刻 放 簿 什么 地 方 趾 出 其 体 的 驱动 程序 上 自己 决定 的 ， 只 要 它 自 己 知道 在 娜 里 等 行 就 公 哪 里 去 唤 上 是 就 
MEAT. 前 个 例 了 中 之 所 以 放 在 inode 结构 中 是 因为 管道 没有 算 底 层 的 设备 驱动 程序 了 。 MA. BU 
Ar lh) OK sh Pe Ap ce AP BLK Bl] queue->proc_list AMAER HEFEI? “MYA, Pb AE drivers/char/pe kcyb.c. 中 


handle mouse event( Jf] y Ez: 


(keyboard, interrupt( ) > handle kbd event( ) > handle mouse event( )] 


396 
397 
398 


418 
419 
420 
421 
422 


424 
425 


static inline void handle mouse event (unsigned char scancode) 


{ 
#ifdef CONFIG PSMOUSE 


if (head != queue->tail) { 
queue >head = head; 
kill fasync(&queue— fasync, SIGIO, POLL IN); 
wake up interruptible(&queue >proc list); 


Sendif 
} 


从 茶 种 意义 LBL, do select ) 的 策略 有 点 像 是 “ 广 种 薄 收 ”， 四 处 登记 要 人 们 在 发 生 什 么 事 时 将 其 
唤醒 ， 但 是 实际 上 只 要 有 一 个 通道 真 的 发 生 了 什么 而 将 其 唤醒 也 就 可 以 了 。 不 过 ， 唤 醒 以 后 还 得 对 所 
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设置 3 个 “结果 ”位 图 并 加 以 计数 ， 就 可 以 知道 到 底 有 几 个 通道 唤醒 了 它 以 及 各 目 是 为 什么 原因 。 这 
就 是 do_select( ) 中 的 外 层 for 循环 的 作用 。 最 后 ， 在 正常 情况 下 通过 218 行 的 break 语句 跳出 这 个 无 穷 
for 循环 。 
不 管 有 几 个 道道 唤醒 了 睡 虐 中 的 进程 ， 既 然 唤 醒 了 ， 不 需要 再 继续 睡眠 了 ， 就 要 把 所 有 的 
wait, queue, t 结构 从 各 个 等 待 队 列 中 摘 下 来 ， 这 是 由 poll_freewait( ) 完 成 的 。 其 代码 在 fs/select.c 中 : 


[sys_select( ) > do_select( ) > poll freewait( )] 


55 void poll_freewait (poll table* pt) 


56 { 

57 struct poll table page * p = pt->table; 
58 while (p) { 

59 struct poll table entry * entry; 

60 struct poll tabie page *old; 

61 

62 entry = p »entry; 

63 do { 

64 entry--; 

65 remove wait queue (entry—>wait_address, &entry- wait); 
66 fput (entry~>filp) ; 

67 } while (entry > p-^entries); 

68 old — p; 

69 p = p—next; 

70 free page((unsigned long) old); 

7] ) 

Ro 3 


我 们 把 这 段 代 码 留 给 读者 。 通 过 这 段 代 码 ， 读 者 应 该 能 体会 到 为 什么 要 通过 poll table entry. 
poll table page. poll table 等 数据 结构 把 所 有 的 wait queue t 结构 组 装 在 起 的 理由 。 

回 到 sys_select( ) 的 代 人 码 中 ， 还 要 通过 set_fd_set( ) 把 3 个 “结果 ”位 图 复制 到 用 户 空间 (338 一 340 
行 )。 函 数 set_fd_set( ) 的 代码 在 include/linux/poll.h FP: 


[sys_select( ) > set fd set ( )] 


T3 static inline 

74 void set_fd_set (unsigned long nr, void *ufdset, unsigned long *fdset) 
75 { 

76 if (ufdset) 

77 |) copy to user(ufdset, fdset, FDS BYTES nr) ) ; 

78 |] 


最 后 ， 通 过 select bits free( ) 释 放 当 初 分 由 用 十 6 个 工作 位 图 的 空间 。 


我 们 以 前 讲 过 ， 许 多 外 部 设备 的 读 操作 本 质 上 是 异步 的 ， 因 为 我 们 事先 无 法 估计 这 些 设备 在 什么 
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时 候 有 数据 可 访 。 另 一 方面 ， 到 现在 为 止 ， 我 们 看 到 的 读 操 作 从 进程 调度 的 角度 看 部 古 同步 的 ， 因 为 
当 操 作 受 阻 的 时 候 进 程 就 进入 睡眠 等 待 ， 这样 才 能 不 浪费 CPU 的 资源 。 : 般 的 设备 驱动 程序 束 是 这 两 
种 不 同性 质 操作 的 交汇 点 ， 或 者 转换 点 。 设 备 驱 动 程序 的 底层 是 异步 的 中 断 机 制 ， 上 层 却 是 同步 的 睡 
眠 /唤醒 机 制 。 系统 调用 select( ) 把 这 种 转换 从 一 个 通道 推广 到 了 多 个 通道 , 但 是 并 没有 改变 读 操 作 在 项 
层 的 同步 性 。 这 样 ， 从 整个 系统 的 角度 看 是 吉 免 了 效率 的 降低 ， 但 是 从 进程 本 身 的 角度 看 却 林 必 尽 善 
尽 美 ， 因 为 有 时 候 … 个 进程 也 许 既 想 监视 若干 个 通道 ， 同 时 义 想 进行 一 些 “后 台 ” 计 算 ， 只 是 在 监视 
中 的 某 个 通道 有 事件 发 咎 (例如 有 了 输入 数据 ) 时 才 转 到 “前 台 ” 作 出 反应 。 那 么 ， 有 没有 办 法 使 项 层 ， 
即 进程 的 恋 文 件 操作 也 变 成 异步 呢 ? 其 实 , 进程 本 来 就 有 类 似 于 中 断 的 异步 操作 机 制 , 奢 就 是 “信和 号”。 
所 以 ， 只 些 把 上 层 的 信号 机 制 与 底层 的 中 断 机 制 结合 起 米 ， 研 能 在 上层 实 现 对 设备 的 异步 操作 ，Linux 
内 核 提 供 了 这 样 的 功能 。 

需要 对 设备 的 异步 操作 时 ，- 个 进程 必须 作 好 下 列 准 备 : 

(D ” 先 打 开 目 标 设 备 。 

(2) ”设置 好 对 目标 设备 的 SIGIO 信和 号 处 理 种 序 ， 并 设置 好 信号 啊 应 ( 见 第 6 8). 

(3) ”通过 系统 调用 fcntl( ) 将 本 进程 设置 成 目标 通道 ( 己 打开 文件 ) 的 “主人 ”。 

(4) ”通过 系统 调用 ioctl ) 将 目标 通道 (已 打开 文件 ) 设 置 成 异步 操作 模式 。 

这 样 ， 当 旦 标 设备 的 通道 中 状态 发 生变 化 时 ， 就 会 前 进程 发 出 一 个 SIGO 信和 号。 平时 这 个 进程 可 
以 从 事 “ 后 台 ” 计 算 ， 当 接收 到 SIGO 信号 时 就 转 入 前 台 的 信号 处 理 程序 中 ， 完 成 对 设备 的 具体 操作 。 
显然 ， 此 时 的 进程 就 好 像 受 到 外 部 设备 中 断 的 CPU 一 样 。 

下 面 我 们 来 看 这 是 怎样 实现 的 。 首 先 ，file 结构 内 部 有 个 成 分 fowner， 是 一 个 fown_struct AGE Ai 
构 ， 定 义 于 include/linux/fs.h: 


492 struct fown struct { 


493 int pid: /* pid or -pgrp where SIGIO should be sent */ 
494 uid_t uid, cuid; /* uid/euid of process setting the owner */ 
495 int signum; /* posix. lb rt signal to be delivered on IO */ 
496 =}; 


这 个 数据 结构 的 内 容 可 以 通过 系统 调用 fentl( ) 设 置 ， 下 面 是 sys. fentl( )AY 3:4 do_fentl( ) 中 的 片段 
(fs/fcntl.c): 


{sys_fentl( ) > do. fentl( )] 


229 static long do fentl(unsigned int fd, unsigned int cmd, 


230 unsigned long arg, struct file * filp) 
231 { 
232 long err = -EINVAL; 
233 
. 284 switch (cmd) | 
247 
273 case F_SETOWN: 
274 lock kernel ( ) ; 
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275 filp->f_owner. pid = arg; 

276 Cilp->f_owner. uid - current—>uid; 

277 filp->f_owner. euid - current—>euid; 

278 err = 0; 

279 if (S 1SSOCK (filp->f dentry->d_inode->i_mode)) 
280 err = sock fentl (filp, F SETOWN, arg); 
281 unlock kernel ( ); 

282 break; 

309 } 

310 

311 return err; 

312 } 


Tire d UR oN Re Pe OB SEA SE aH] ioctl() 设 置 异 步 操作 模 工 时 会 自动 设置 f_owner, 所 以 这 一 步 往 
往 并 非 必 有 顷 。 除 此 以 外 ， 对 发 送 的 信号 signum 也 可 以 通过 系统 调用 fcnt( ) 另 加 指定 ， 如 果 不 加 指定 就 
是 SIGIO. 

再 看 sys_ioctl() 的 片段 ， 取 自 文件 fs/ioctl.c: 


48 asmlinkage long sys_ioctl (unsigned int fd, unsigned int cmd, unsigned long arg) 
49 d 


50 struct file * filp; 

5] unsigned int flag; 

52 int on, error = —EBADI: 

53 

54 filp = fget (fd); 

58 lock kernel ( ); 

59 switch (cmd) | 

83 case FTOASYNC: 

84 if ((error = get user(on, (int *)arg)) != 0) 
85 break; 

86 flag = on ? FASYNC : 0; 

87 

88 /* Did FASYNC state change ? */ 

89 if ((flag ^ tilp->f flags) & FASYNC) { 
90 if (filp-^f op && filp ^f op->frasync) 
9] error = filp-^f op »fasync(fd, filp, on); 
92 else error = -ENOTTY; 

93 } 

94 if (error != 0) 

95 break; 

96 

97 if (on) 

98 filp->f_flags |= FASYNC; 

99 else 
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100 filp-^f flags &- ~FASYNC; 
101 break; 


e 8 8 č e » č >+ 


110 unlock kernel( ); 
111 fput (filp}; 


113 out: 
114 return error; 
115 } 


进行 ioctl( RAAMT, SA cmd 表示 具体 的 “命令 ”代码 ， 而 arg 则 为 对 具体 命令 的 参数 。 对 
于 异步 模式 的 设置 ， 命 令 码 cmd 为 FIOASYNC， 而 参数 arg 可 以 是 1 或 0。 

并 非 所 有 的 设备 都 支持 开 上 消 模 式 。 支 持 噶 步 模 式 的 一 般 都 是 与 人 机 界面 有 关 的 字符 没 备 ， 这 些 没 
备 的 file_operations 结构 中 的 函数 指针 fasyne 指向 其 用 来 建立 异步 模式 的 函数 。 以 前 面 所 列 鼠 标 器 的 
file operations 结构 psaux_fops 为 例 , 其 指针 fasync 指向 fasync_aux() 它 的 代码 在 drivers/char/pc, keyb.c 
中 : 


[sys_ioctl( ) > fasync_aux( )] 


860 static int fasync_aux(int fd, struct file *filp, int on) 


861 { 

862 int retval; 

863 

864 retval = fasync helper(fd, filp, on, &queue—>fasync) ; 
865 if (retval < 0) 

866 return retval: 

867 return 0; 

868 — ] 


这 里 的 全 局 量 queue 就 指向 前 面 看 到 过 的 aux. queue 数据 结构 , 里 面 有 个 等 待 队列 proc. Hist 用 十 进 
程 的 睡眠 /唤醒 机 制 ， 这 我 们 已 经 看 到 过 了 。 但 是 ， 这 个 数据 结构 中 同时 还 有 个 fasync_struct 数据 结构 
指针 fasync， 用 来 维持 一 个 单 链 的 “异步 文件 ”队列 (fasyne PASI). RX fasync_helper( ) 的 作用 就 是 为 
当前 进程 创建 -个 fasync_struct 数据 结构 ， 并 将 其 挂 入 目标 没 备 的 fasync 队列 。 这 样 ， 当 目标 设备 的 
通道 中 发 生 某 些 状态 变化 时 ， 就 可 以 顺 着 这 个 队列 给 每 个 有 关 的 进程 都 发 一 个 SIGIO 信 另 。 这 个 函数 
PH BE fs/fentl.c 中 : 


[sys ioctl( ) > fasync aux( ) > fasync_helper( )] 


438 /* 

439 * fasync helper( ) is used by some character device drivers (mainly mice) 
440 * to set up the fasyne queue. Tt returns negative on error, O if it did 
441 * no changes and positive if it added/deleted the entry. 

442 x/ 


443 int fasync_helper (int fd, struct file lilp, int on, struct fasync struct **fapp) 
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444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
457 
458 
459 
460 
461 
462 
463 
464 
465 
466 
467 
468 
469 
470 
47] 
472 
473 
474 
475 
476 
477 
478 
479 
480 


597 
598 
599 
600 
601 
602 


out: 


j 
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struct fasync struct *fa, **fp; 
struct fasync struct *new - NULL; 
int result = Q; 


if (on) 


{ 


new = kmem cache alloc(fasyne cache, SLAB KERNEL); 
if (fnew) 
return -ENOMEM; 


} 


write lock irq(&fasync lock); 
for (fp = fapp; (fa = *fp) != NULL; fp = &fa—^fa next) { 
if (fa- fa file == filp) | 


if(on) { 


fa-^fa fd = fd; 


kmem cache frec(fasync cache, new); 


) else { 


*fp - fa->fa_next; 
kmem cache free(fasync_cache, fa); 


result = 1; 
} 
goto out; 
{ 


new-2magic = FASYNC MAGIC; 


new->fa file 
new->fa fd = fd; 

new-2fa next = *fapp; 
*fapp 7 new; 


result = l; 


} 
} 
if (on) 
} 


filp; 


write unlock irq(&fasyne lock); 
return result; 


数据 结构 (类 型 )fasync_struct 的 定义 在 include/linux/fs.h "P: 


struct fasync struct | 
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int magic; 
int fa fd; 
fasync struct *fa next; /* singly linked list */ 


struct 
struct 


file 


*fa file; 


第 8 章 设备 驱动 
这 个 数据 结构 中 并 没有 指向 task, struct 结构 的 指针 ， 但 是 有 指向 file 结构 的 指针 ;，file 结构 代表 痢 
进程 与 文件 的 连接 ， 找 到 了 file 结构 就 可 以 找到 它 的 “主人 ”。 全 于 fasync_helper( ) 的 代码 ， 既 然 这 么 
简单 ， 就 不 用 多 说 了 。 
前 面 , 在 handle_mouse_event( ) 的 代码 中 ,我 们 看 到 ， 这 个 函数 - 方面 通过 wake_up_interruptiblet ) 
唤醒 等 待 中 的 进程 ， 同 时 还 调用 了 一 个 函数 Kill fasync(): 


[keyboard_interrupt( ) > handle kbd event( ) > handle_mouse_event( )] 


396 static inline void handle mouse event (unsigned char scancode) 
397 { 

420 kill fasync(&queue-^fasync, SIGIO, POLL IN): 

42b } 


tC kill_fasync( JJH BUER AE IU. fasync 队列 ， 向 每 个 有 关 的 进程 发 出 “个 SIGIO 信号 ， 并 将 
POLL IN 传 给 各 个 进程 的 SIGIO 信号 服务 程序 作为 参数 ， 使 其 知道 接收 到 信号 的 原因 是 通道 中 有 了 输 
A. AH kill_fasyne( ) 的 代码 在 fs/fentl.c 中 : 


[keyboard_interrupt( ) > handle_kbd_event( ) > handle mouse_event( ) > kill, fasync( )] 


501 void kill fasync(struct fasync struct **fp, int sig, int band) 
502 { 


503 read lock(&fasync lock); 

504 kill fasync(kfp, sig, band); 
505 read unlock(&fasyne lock); 

506  ] 


函数 __kilj_fasync( ) 也 在 同一 文件 中 : 


{keyboard_interrupt( ) > handle_kbd_event( ) > handle_mouse_event( ) > kill_fasync( ) > .. kil] fasync( )] 


482 void . kill fasync(struct fasync_struct *fa, int sig, int band) 
483 { 


484 while (fa) | 

485 struct fown struct * fown; 

486 if (fa->magic !- FASYNC MAGIC) { 

487 printk (KERN_ERR “kill fasync: bad magic number in i 
488 "fasync struct!Wn^); 

489 return; 

490 ) 

491 fown = &fa->fa_ file-^f owner; 

492 /* Don' t send SIGURG to processes which have not set a 
493 queued signum: SIGURG has its own default signalling 
494 mechanism. */ 

495 if (fown—->pid && !(sig == SIGURG && fown-^signum == 0)) 
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496 send_sigio(fown, fa->fa fd, band): 
497 fa = fa->fa next ; 

498 } 

499 } 


对 于 队列 中 的 每 一 个 fasyne_struct 结构 ， 通 过 与 其 相 联系 的 file 结构 便 可 以 找到 通道 的 “主人 ” 
这 束 是 需要 发 送信 号 的 对 象 。 函 数 send_sigio( ) 的 代码 在 fs/fentl.c 中 : 


[keyboard interrupt( ) > handle, kbd event( ) > handle mouse event( ) > kill, fasync( ) 
> . kill fasync( ) > send sigio( )] 


413 void send sigio(struct fown struct *fown, int fd, int band) 
414 { 

415 struct task struct * p; 

416 int pid = fown—pid; 

417 

418 read lock(&tasklist lock); 

419 if ( (pid > 0) && (p = find task by pid(pid)) ) ( 
420 send sigio to task(p, fown, fd, band); 
421 goto out; 

422 } 

423 for each task(p) { 

424 int match = p >pid; 

425 if (pid < 0) 

426 match = p-*pgrp; 

427 i£ (pid != match) 

428 continue; 

429 send sigio to task(p, fown, fd, band); 
430 | 

431 out : 

432 read unlock(&tasklist lock); 

433 |] 


如 宁 根 搓 对 象 的 pid 找到 了 这 个 进程 ， 就 只 向 这 个 进程 发 出 信号 ， 和 否则 就 向 问 “进程 组 小 的 所 有 
MERE BUE tiri. ERAS send_sigio_to_task( ) fa th ze [rd — 3c ff (fs/fentl.cyt: 


[keyboard interrupt( ) » handle kbd cvent( ) » handle mouse event( ) > kill, fasync( ) 
> __kill_fasync( ) > send. sigio( ) > send sigio to. task( )] 


374 static void send sigio to task(struct task struct *p, 

375 struct flown struct *fown, 

376 int fd, 

377 int reason) 

378 .1 

379 if ((fown-^euid != 0) && 

380 (Fown-^euid ` p-^suid) && (rown->euid ^ p-»uid) && 
381 (fown->uid ^ p->suid) && (fown-»uid ^ p »uid)) 
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382 return; 

383 switch (fown-^signum) | 

384 siginfo t si; 

385 default: 

386 /* Queue a rt signal with the appropriate fd as its 
387 value. We use SI SIGIO as the source, not 

388 SI KERNEL, since kernel signals always get 

389 delivered even if we can t queue. Failure to 
390 queue in this case should be reported; we fall 
391 back to SIGIO in that case. --sct */ 

392 si.si signo = fown->signum; 

393 si.si errno = 0; 

394 si.si code = reason & ^ SI MASK; 

395 /* Make sure we are called with one of the POLL_* 
396 reasons, otherwise we could leak kernel stack into 
397 userspace. */ 

398 if ((reason & | SI MASK) != _ SI POLL) 

399 BUG( ) ; 

400 if (reason ~ POLL TN >= NS1GPOLL) 

401 si.si band = “OL; 

402 else 

403 si.si band - band table[reason - POLL IN]; 

404 si.si fd - fd; 

405 if (!send sig info(fown->signum, &si, p)) 

406 break; 

407 /* fall-through: fall back on the old plain SIGIO signal */ 
408 case 0: 

409 send sig(SIGIO, p, 1); 

410 } 

411 } 


如 果 没 有 对 发 送 的 信号 另 加 指定 , 则 fown->signum 为 0, 此 时 发 送 的 信和 与 为 SIGIO, 通 过 send, sig() 
发 送 。 如 果 另 加 指定 则 为 菜 种 实时 信号 ， 通 过 send sig info( ) 发 送 。 我 们 把 这 段 代 码 留 给 读者 ， 作 为 
对 信号 机 制 的 一 次 复习 。 


8.11 设备 文件 系统 devfs 


我 们 以 前 多 次 讲 到 过 ， 以 主 设 备 号 /次 设备 号 为 基础 的 设备 文件 管理 方式 是 有 根本 性 的 缺点 的 。 这 
种 从 Unix 早期 一 直 延 用 下 来 的 方案 一 方 而 给 设备 号 的 管理 带 来 了 朵 烦 ， 一 方面 也 破坏 了 /dey HR Aaa 
构 。Unix/Linux 系统 中 所 有 有 日 录 的 结构 都 是 层次 的 ， 惟 独 /dev 目录 是 “平面 ”的 。 这 个 光 是 风格 的 问 
题 ， 也 直接 影响 着 访问 的 效率 和 管理 的 方便 与 弄 。 而 且 ，/dev 日 录 卜 的 节点 并 不 是 按 实际 的 所 要 而 创 
建 的 ， 日 孙 中 在 在 某 种 设备 的 节点 并 不 说 明 内 核 中 有 这 种 设备 的 张 动 程序 ， 更 不 说 明 系 统 中 实际 连接 
着 这 种 设备 。 事 实 上 ， 几 平 所 有 Unix/Linux 系统 的 /dev 有 日 录 卜 都 有 着 大 量 实际 不 用 的 节点 。 这 些 节 点 
的 存在 既 降 低 了 效率 ， 又 给 管理 带 来 麻烦 ， 但 是 一 般 又 不 敢 把 它们 删 去 ， 因 为 一 米 不 知道 多 竟 哪 些 是 
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要 直接 或 间接 用 到 的 ， 二 来 也 不 知道 会 不 会 将 来 某 一 天 突然 需要 用 到 其 中 的 某 些 节点 了 。 究 其 原因 ， 
问题 在 于 /dev 目录 中 的 节点 都 是 在 内 核 的 外 部 创建 的 ， 与 内 核 的 构成 和 运行 并 无 直接 的 联系 。 

那么 ， 理 想 的 /dev 目录 应 该 是 什么 样 的 呢 ? 首先 ， 它 应 该 是 层次 的 、 树 状 的 (不 一 定 是 严格 意义 上 

的 树 )。 其 次 ， 它 的 规模 应 该 是 可 伸缩 的 ， 而 且 不 受 数 量 的 限制 (例如 256 个 主 设备 号 )。 还 有 ，/dev B 
录 中 的 内 容 应 该 反映 系统 当前 在 设备 驱动 方面 的 实际 情形 。 例 如 ， 这 样 一 套 方案 就 是 比较 理想 的 ; 

(D ”系统 加 电 之 初 /dev 目录 为 空 。 

(2) ”系统 在 初始 化 阶段 扫描 并 枚 举 所 有 连接 着 的 设备 ， 就 像 对 PCI 总 线 的 扫描 枚 举 一 样 。 每 找到 
一 项 设备 就 分 门 别 类 地 在 /dev 目录 下 创建 起 子 目 录 , 然后 以 设备 的 序号 作为 最 底层 的 节点 名 ， 
例如 “/dewide/hd/1”、“/dewide/floppY/1” 等 等 。 

(3) ”以 后 ， 每 插入 … 个 设备 ， 或 安装 一 个 可 安装 模块 ， 就 由 内核 在 /dev 子 树 中 增加 一 -个 或 几 个 节 


Filo 
(4) 反之， 如 采 关 闭 或 拆除 个 设备 ， 或 拆除 一 个 可 安装 模块 ， 就 出 内 核 从 /dev 子 树 中 删 去 相应 
的 节点 。 


(5 ”还 得 与 穆 来 的 方案 兼容 。 

除 将 /devy 上 且 采 改 成 树 状 以 外 ， 这 里 的 关键 在 于 将 其 纳入 内 核 的 管理 ， 而 不 是 像 以 前 那样 从 内 核 外 
部 管理 ， 那 正 是 造成 不 一 致 的 原因 。 如 果 我 们 同 顾 一 下 前 儿 章 中 的 内 容 ， 就 可 以 想起 Linux 其 实 有 - 
个 与 此 相似 的 特 狐 文件 系统 ， 才 就 是 /proc。 虽 然 管理 的 对 象 和 月 的 不 尽 相 同 ， 但 是 在 方法 上 显然 是 可 
以 借鉴 的 。 特 殊 文 件 系统 devfs 正 是 为 实现 上 述 目标 而 设计 、 与 fproc 很 相似 的 “文件 系统 ” 

日 前 ，devfs 的 使 用 还 只 是 一 个 实验 性 的 选择 项 ， 由 -个 编译 选择 项 CONFIG. DEVFS. FS 加 以 选 
择 。 


文件 系统 类 型 devfs_fs_type 的 定义 见 fs/devfs/base.c: 


3145 static DECLARE FSTYPE (devfs fs type, DEVFS NAME, devfs read super, FS SINGLE); 


经 过 gec 的 编译 预 处 理 以 后 ， 就 会 成 为 如 下 的 定义 ; 


struct file system type devfs fs type = { 
name: ^devfs^, 
read super: devfs read super, 
fs flags: | FS SINGLE, 
owner: THIS, MODULE, 
} 


系统 在 初始 化 时 会 调用 init devfs fs( ) 进 行 对 devfs ELERA AE, IX BR UH RISE 
fs/devfs/base.c 中 : 


3342 int | init init devfs fs (void) 
3343 { 

3344 int err; 

3345 
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3346 printk (“%s: v%s Richard Gooch (rgooch@atnf. csiro. au) W^, 
3347 DEVFS NAME, DEVFS_VERSTON) ; 

3348 Hifdef CONFIG DEVFS DEBUG 

3349 devfs debug = devfs debug init; 

3350 printk (“%s: devfs debug: 0x%0x\n”, DEVFS NAME, devfs debug); 
3351 fendif 

3352 printk (“%s: boot options: 0x%0x\n”, DEVFS NAME, boot options); 
3353 err = register filesystem (&devfs fs type); 

3354 if (lerr) 

3355 { 

3356 struct vfsmount *devfs mnt = kern mount (&devfs fs type); 
3357 err - PTR ERR (devfs mnt); 

3358 if ( {IS ERR (devfs mnt) ) err = 0; 

3359 ) 

3360 return err; 


3361 } /x* End Function init devfs fs */ 


首先 通过 register. filesystem( ) 向 系统 登记 文件 系统 类 型 devfs fs type, 读者 对 这 个 函数 应 该 已 经 比 
较 熟 悉 了 。 然 后 ， 就 通过 kern_mount( ) 初 始 安装 特殊 文件 系统 devfs。 读 者 在 第 5 章 中 看 到 ， 通 过 
kem_mount( ) 安 装 的 子 系统 其 实 并 没有 纳入 以 “/” 为 根 的 文件 系统 中 ， 暂 时 述 游离 在 外 所 。 这 样 的 文 
件 系统 还 要 再 经 过 一 次 常规 的 安装 才能 纳入 到 以 “/” 为 根 的 文件 系统 中 ， 与 其 中 的 某 个 节点 挂 上 和 多， 
数据 结构 devfs fs type 的 字段 fs_flags 中 标志 位 FS_SINGLE 为 1 也 说 明了 这 一 点 。 事 实 上 ， 此 刻 的 节 
点 “/” 还 是 空 的, 对 devfs 的 初始 安装 先 填 根 设 备 的 安装 ,之 所 以 紫 在 安装 根 设备 之 前 先 初 始 安 交 devfs， 
是 因为 在 引导 系统 时 可 以 道 过 一 个 命令 行 选择 项 指定 以 哪 一 个 设备 作为 系统 的 根 设 备 ， 所 以 在 安装 根 
设备 之 前 就 得 要 有 最 低 限 度 的 根据 设备 路 径 名 找到 其 设备 号 的 功能 。 

安装 的 本 来 意义 是 将 一 个 设备 上 的 文件 系统 子 树 跟 已 经 存在 于 文件 系统 中 的 一 个 节点 挂钩 。 可 是 ， 
特殊 文件 系统 实际 上 并 不 存在 于 某 个 设备 上 ， 所 以 要 为 其 设置 一 个 虚拟 的 设备 。 这 个 设备 的 主 设备 号 
为 UNNAMED_MAJOR， 次 设备 号 则 由 一 个 函数 get_unnamed_dev( ) 分 配 。 读 者 已 经 在 第 5 草 中 结合 
Iproc 的 安装 读 过 kermm_mount( ) 的 代 公 ， 知 道 在 初始 安装 特殊 文件 系统 时 要 调用 一 个 函数 read_super( )， 
而 read_super( ), 则 通过 具体 file system type 结构 中 的 级 数 指针 read. super 读 入 或 生成 其 超级 块 。 从 上 
面 数 据 结构 devfs fs type 的 定义 中 可 以 看 到 ，devfs 的 read, super 操作 是 devfs_read_super( )， IK ee X 
的 代码 在 fs/devfs/base.c 中 : | 


[init_devfs_fs( ) > kern_mount( ) read super( ) > devfs read super( )] 


3112 static struct super block *devfs read super (struct super block *sb, 


3113 void *data, int silent) 

3114 { 

3115 struct inode *root_inode = NULL; 

3116 

3117 if (get root entry ( ) == NULL) goto out no root; 
3118 atomic set (&fs info.devfsd overrun count, 0); 

3119 init waitqueue head (&fs info.devfsd wait queue); 
3120 init waitqueue head (&fs info.revalidate wait queue); 
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3121 fs info. sh = sb; 

3122 sb-^u. generic sbp = &fs info; 

3123 sb->s_ blocksize = 1024; 

3124 sb->s blocksize bits - 10; 

3125 sb-^s magic = DEVFS SUPER MAGIC; 

3126 sh->s_op = &devfs sops; 

3127 if ( ( root inode - get vfs inode (sb, root entry, NULL) ) == NULL ) 
3128 goto out no root; 

3129 sb-^s root - d alloc root (root inodo); 

3130 if (!sb->s root) goto out no root: 

3131 #ifdef CONFIG DEVFS DEBUG 

3132 if (devfs debug & DEBUG DISABLED) 

3133 printk (“%s: read super, made devfs ptr: %p\n’, 
3134 DEVFS NAME, sb->u. generic sbp); 

3135 #endif 

3136 return sb; 

3137 

3138 out_no root: 

3139 printk (“devfs_read_super: get root inode failed\n”); 
3140 if (root inode) iput (root inode) ; 

3141 return NULL; 


3142 }  /* End Function devfs read super */ 


像 /proc 一 样 ，devfs ERR EURAN AH, MRE EUR SCE RSA FE YE RE ERE | 有 连接 成 树 状 的 目 
有 节 点 和 索引 节点 ， 所 以 在 内 存 中 二 为 之 建立 起 ”会 连接 成 树 状 的 数据 结构 。 对 于 devfs 文件 系统 ,这 
种 数据 结构 是 devfs_entry， 定 义 十 fs/devfs/base.c: 


630 struct devfs_entry 


631 { 

632 void *info; 

633 union 

634 { 

635 struct directory type dir; 

636 struct feb type feb; 

637 struct symlink typo symlink; 

638 struct fifo type fifo; 

639 } 

640 u; 

641 struct devfs entry *prev; /* Previous entry in the parent directory */ 
642 struct devís entry *next; /* Next entry in the parent directory */ 
643 struct devfs entry *parent; /* The parent directory */ 
644 struct devfs entry *slave; /* Another entry to unregister * / 
645 struct devfs inode inode; 

646 umode t mode; 

647 unsigned short namelen; /* I think 64k+ filenames are a way off... */ 
648 unsigned char registered:l; 

649 unsigned char show unreg:l; 
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650 unsigned char hide:l; 

651 unsigned char no persistence:]; 

652 char name[ll; /* This is just a dummy: the allocated array is 
653 bigger. This is NULL-terminated */ 

654 Y; 


纪 构 中 的 宁 符 数组 name ] 就 是 入 点 名 ， 其 人 小 在 为 其 体 的 数据 结构 分 配 空间 时 恨 据 有 具体 的 字符 由 
长 度 确定 。 每 个 devfs_entry 结构 通过 指针 prev. next. parent 和 slave 连接 成 树 状 ， 以 此 米 实 现 一 个 文 
件 系 统 子 树 。 从 数据 结构 的 定义 可 以 看 出 ，devfs 子 树 中 的 节点 有 四 种 不 同 的 类 型 。 第 种 是 dir, BD 
Fok, RA HAA. hE feb. HOA SCE PE HIER”, CE devfs 子 树 中 的 时 节点 。 第 一 种 是 symlink, 
这 也 是 个 言 目 明 的 。 最 后 一 种 是 fifo， 专 门 用 于 管道 文件 。 因 节点 类 型 的 不 同 ，devfs_entry 结构 中 的 
union u 也 相应 地 解释 成 不 同 的 数据 结构 。 这 早先 看 一 下 fcb_type 数据 结构 的 定义 (fs/devfs/base.c): 


S77 struct file_type 


578 { 

579 unsigned long size; 

580 }; 

581 

582 struct device type 

583 { 

584 unsigned short major: 

585 unsigned short minor; 

586 ; 

587 

588 struct fcb type /* Filo, char, block type */ 
589 f 

590 uid t default uid; 

591 gid t default gid; 

592 void *ops; 

593 union 

594 { 

595 struct file type filo; 

596 struct device Lype device; 

597 ) 

598 u; 

599 unsigned char auto_owner: it; 

600 unsigned char aopen notify:1; 

601 unsigned char removable:1;/* Belongs in device_type, but save space */ 
602 unsigned char open:l; /* Not entirely correct */ 
603 }; 


nji, devfs 中 的 叶 节 点 有 两 种 类 型 ， 种 是 文件 ， 男 一 种 是 设备 。 对 填 设 备 ，fcb_type 结构 提供 
T 16 位 的 让 /次 设备 号 ,不过 , 如 前 所 述 ,， Æ devfs 中 二 设备 号 与 具体 的 最 动 程 序 没 有 固定 的 对 应 关系 ， 
而 起 动态 分 配 的 。 每 个 file_type 数据 结构 中 都 有 个 指针 ops， 根 据 需 要 指向 具体 的 file operations 或 其 
他 数据 结构 。 
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内 核 中 还 有 个 数据 结构 fs info. tok XT fs/devfs/base.c: 


668 struct fs_info /* This structure is for each mounted devfs */ 
669 { 

670 unsigned int num_inodes; /* Number of inodes created */ 
671 unsigned int table size; /* Size of the inode pointer table */ 
672 struct devfs entry **table; 

673 struct super_block *sb; 

674 volatile struct devfsd_buf_entry *devfsd buffer; 

675 volatile unsigned int devfsd buf in; 

676 volatile unsigned int devfsd buf out; 

677 volatile int devfsd sleeping; 

678 volatile int devfsd buffer in use; 

679 volatile struct task struct *devfsd task; 

680 volatile struct file *devfsd file; 

681 volatile unsigned long devfsd event mask; 

682 atomic t devfsd overrun, count; 

683 wait queue head t devfsd wait queue; 

684 wait queue head t revalidate wait queue; 

685 Ji 


这 个 数据 结构 中 的 指针 table 指向 一 个 devfs_entry 指针 数组 ，table_size 为 数组 当前 的 大 小 。 这 个 
数组 中 的 指针 分 别 指向 所 有 已 经 分 配 的 devfs_entry 数据 结构 ， 或 者 说 devfs FR PANNA E 
一 开始 时 内 核 中 没有 已 经 分 配 的 devfs_entry 数据 结构 ， 所 以 这 个 数组 的 大 小 为 0。 

内 核 在 设备 驱动 程序 中 仍然 使 用 设备 号 ,不 过 主 /次 设备 号 都 己 改 成 16 位 , 并 从 中 划 出 一 块 供 devfs 
动态 分 配 。 原 来 已 经 分 配 了 主 /次 设备 号 的 还 继续 延 用 原 米 的 设备 写 ， 而 未 经 分 配 的 则 可 以 在 初始 化 阶 
段 向 devfs 登记 时 让 devfs 动态 地 分 配 -- 个 。 动 态 分 配 的 设备 写 只 是 临时 的 ， 其 作用 仪 企 村 在 devfs 中 
的 站 点 与 数组 chrdevs[ ] 或 blk_dev[ ] 趾 的 元 素 建立 起 联系 。 这样 , 只 要 应 用 软件 控 预 定 的 路 从 名 打开 设 
备 文件 ， 就 能 得 到 目标 设备 当前 的 设备 号 。 

对 于 字符 设备 与 块 设备 ， 供 devfs HA RIK $05 88/4 MIN. DEVNUM 开始 Cfs/devfs/base.c): 


527 Hdefine MIN DEVNUM 36864 /* Use major numbers 144  */ 
528 Hdefine MAX DEVNUM 61439 /* through 239, inclusive */ 


688 static unsigned int next devnum char = MIN DEVNUM; 
689 static unsigned int next devnum block = MIN DEVNUM; 


第 .个 devfs_entry 数据 结构 当然 应 该 是 devfs MTA, BAX get root entry( ) 的 代码 在 
fs/devfs/base.c 中 


[init_devfs_fs( ) > kern_mount( ) > read, super( ) > devfs read super( ) > get_root_entry( )] 


841 /** 
842 * get root entry - Get the root devfs entry. 
843 * 
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844 
845 
846 
847 
848 
849 
850 
851 
852 
853 
854 
855 
856 
857 
858 
859 
860 
861 
862 
863 
864 
865 
866 
867 
868 
869 
870 
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* Returns the root devfs entry on success, else %NULL. 


static struct devfs entry *get root entry (void) 


{ 


} 


struct devfs entry *new; 


/* Always ensure the root is created */ 

if (root entry != NULL) return root entry; 

if ( ( root entry = create entry (NULL, NULL, 0) ) == NULL ) return NULL; 
root entry-?registered = TRUE; 

root entry-2mode = S IFDIR; 

/* Force an inode update, because lookup( ) is never done for the root */ 
/* And create the entry for ".devfsd' */ 

if ( ( new = create entry (root entry, ".devfsd", 0) ) == NULL ) 

return NULL; 

new->registered = TRUE; 

new->u. fcb. u. device. major = next devnum char >> 8; 
new—>u. feb. u. device. minor = next devnum char & Oxff; 

++next_devnum_char; 

new->mode = S IFCHR | S TRUSR | S IWUSR; 

new-»u. fcb. default uid = 0; 

new->u. fcb. default gid = 0; 

new->u. fcb. ops = &devfsd fops; 

return root entry; 

/* End Function get root entry */ 


先 创 建 devfs 的 根 节点 root entry, 1x 8 RET root. entry 是 个 全 局 量 。 


[init devfs fs( ) > kern_mount( ) > read. super( ) > devfs_read_super( ) > get. root entry( ) > create_entry( )] 


164 
765 
766 
167 
768 
769 
770 
771 
772 
773 
774 
775 
776 
TIT 
778 


static struct devfs entry *create entry (struct devfs_entry *parent, 


{ 


const char *name, unsigned int namelen) 
struct devfs_entry *new, **table; 


/* First ensure table size is enough */ 
if (fs info. num_inodes >= fs info. table_size) 
{ 
if ( ( table = kmalloc (sizeof *table * 
(fs info. table size + INODE TABLE INC), 
GFP_KERNEL) ) == NULL ) return NULL; 
fs info. table size += INODE TABLE INC; 


#ifdef CONFIG_DEVFS_DEBUG 


if (devfs debug & DEBUG I CREATE) 
printk (“%s: create entry( ): grew inode table to: %u entriesWY, 
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779 DEVFS NAME, fs info.table size); 

780 Hendif 

781 if (fs info. table) 

782 { 

783 memcpy (table, fs_info. table, sizeof *table *fs info. num inodes) : 
784 kfree (fs info. table); 

785 } 

786 fs_info. table = table; 

787 } 

788 if ( name && (namelen < 1) ) namelen = strlen (name); 

789 if ( ( new = kmalloc (sizeof *new + namelen, GFP KERNEL) ) == NULL ) 
790 return NULL; 

791 /* Magic: this will set the ctime to zero, thus subsequent lookups will 
792 trigger the call to <update_devfs inode from entry? */ 

793 memset (new, 0, sizeof *new + namelen); 

794 new->parent = parent; 

195 if (name) memcpy (new->name, name, namelen); 

796 new—>namelen = namelen; 

197 new-»inode.ino = fs info.num inodes + FIRST INODE; 

198 new->inode. nlink = 1; 

799 fs info. table[fs_info. num inodes] = new; 

800 ++fs info. num_inodes; 

801 if (parent == NULL) return new; 

802 new->prev = parent—>u. dir. last; 

803 /* Insert into the parent directory s list of children */ 

804 if (parent-^u. dir. first == NULL) parent->u. dir. first = new; 

805 else parent->u. dir. last->next = new; 

806 parent—>u, dir. last = new; 

807 return new; 


808 } /* End Function create entry */ 


74 fs info 数据 结构 中 的 num inodes BLAU table size 字段 相等 时 , RAG 354" 75 EH fs. info.table 所 指 
的 devfs entry 指针 数组 了 。 每 次 扩充 部 在 原来 的 大 小 上 增加 INODE, TABLE, INC. Hil 250 个 指针 的 容 
量 。 显 然 ， 创 建 devfs 的 根 节 点 时 这 两 个 字段 都 是 0， 所 以 此 为 最 初 的 250 个 指针 分 配 空间 。 旭 果 不 是 
第 一 次 分 配 空间 ， 则 还 要 把 已 经 存在 的 数组 复制 到 新 的 空间 中 ， 并 释放 原 有 的 空间 。 接 着 ， 就 要 为 
devfs entry 数据 结构 本 本 (连同 节点 名 字符 串 ) 分 配 空间 .用 于 devfs 根 19 AA) inode 号 为 FIRST_INODE,， 
BU 1， 以 后 则 逐次 递增 。 除 根 节 点 外 ，devfs 文件 系统 中 的 全 个 节点 都 有 个 父 节 点 ， 而 其 父 节点 必定 是 
个 口 录 节 点 ，802 一 806 行将 新 的 节点 与 父 节点 以 及 同一 目 并 中 的 其 他 节点 链接 在 -一 起 。 

l1] get root entry( H, F EE devfs 的 根 节 点 下 创建 一 个 节点 “.devfsd”。 这 个 节点 是 个 feb 
Wei. TE devfs 中 ， 设 洗 号 是 由 系统 自动 分 配 的 ， 变 备 号 起 点 是 ((((? ? ? ))) 读者 将 看 到 ， 设 备 号 
在 devfs 中 并 个 起 者 原来 那么 重要 的 作用 。 此 外 ，fcb 节点 部 有 个 指针 ops 指向 一 个 file operations 数据 
结构 。 对 于 节点 “.devfsd”， 这 个 数据 结构 是 定义 十 fs/devfs/base.c 的 devfsd_fops: 


715 /* Devfs daemon file operations */ 
716 static struct file operations devfsd fops - 


. 596 . 


第 8 章 WARS) 


717 {d 

718 read: devfsd read, 
119 ioctl: devfsd_ ioctl, 
720 release: devfsd close, 
42] J 


这 是 个 特殊 的 节点 ， 这 个 节点 并 不 是 代表 着 … 项 其 体 的 设备 ， 而 是 反映 者 devfs 当前 的 内 容 变 化 ， 
其 意图 是 在 用 户 空间 创建 -… 个 devfs 的 “保护 神 ” 进 称 devfsd。 这 个 进程 的 主体 是 个 无 穷 循 坏 ， 并 总 是 
因为 读 /dev/.devfsd 受 阴 而 睡眠 。 但 是 ， 每 当 devfs 的 内 容 发 生变 化 时 ， 例 如 创建 或 删除 一 个 节点 或 打 
开 一 个 设备 文件 时 ， 内 核 就 (通过 一 个 叫 devfsd_notify( ) 的 函数 ) 将 这 个 进程 唤醒 。 这 样 ， 束 可 以 安排 这 
个 进程 每 当 devfs 的 内 容 发 生变 化 时 就 作出 一 些 反 应 ， 例 如 在 屏幕 上 显示 - 行 信息 “/dev/x/y/z/l is up". 

回 到 devfs_read_super( ) 的 代码 中 ， 王 出 就 是 填写 devfs 的 super block 数据 结构 的 内 容 ， 注 意 这 里 
把 指针 s op 设置 成 指 癌 devfs_sops， 定 义 于 fs/devts/base.c: 


2364 static struct super operations devfs_sops = 
2365 { 

2366 read _ inode: devfs read inode, 

2367 write inode: devfs write inode, 

2368 statfs: devfs statfs, 

2369 }; 


然后 就 通过 get vfs inode( ) 为 devfs 的 根 节点 创建 :个 inode 数据 结构 (fs/devfs/base.c): 
[init devfs fs( ) > kern_mount( ) > read_super( ) > devfs_read_super( ) > get_vfs_inode ( )] 


2381 static struct inode *get_vfs_inode (struct super block *sb, 


2382 struct devfs entry **do, 
2383 struct dentry *dentry) 
2384 { 
2385 struct inode *inode; 
2386 
2387 if (de->inode. dentry !- NULL) 
2388 { 
2389 printk (“%s: get vfs inode (%u): V 
old de >inode. dentry: %p \"%s\” new dentry: %p \“%s\"\n", 
2390 DEVFS NAME, de~->inode. ino, 
2391 de->inode. dentry, de->inode. dentry->d_name. name, 
2392 dentry, dentry >d_name. name); 
2393 printk ("^ old inode: %p\n”, de->inode. dentry—>d_ inode) ; 
2394 return NULL; 
2395 } 
2396 if ( ( inode = iget (sb, de->inode. ino) ) == NULL ) return NULL; 
2397 de-^inode.dentry - dentry; 
2398 return inode; 


2399 } /x End Function get vfs inode */ 
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读者 在 第 5 章 中 已 经 看 到 ，iget( ) 首 先 在 inode 结构 的 杂凑 队列 中 查找 ,如 果 找 不 到 就 新 创建 一 个 。 
最 后 , 通过 d alloc root( ) 为 devfs 的 根 节点 创建 一 个 dentry 数据 结构 ,这 个 节点 也 叫 “/”% 但 只 是 devfs 
的 根 ， 与 整个 文件 系统 的 总 根 不 是 E. 

完成 了 对 超级 块 的 处 理 以 后 ，kern_mount( ) 将 devfs 的 根 节 点 暂时 “安装 ”到 了 devfs 的 
file system type 数据 结构 devfs fs type 上 ， 使 其 指针 kem mnt 指向 用 作 “ 连 接 件 ” 的 vfsmount 结构 ， 
为 以 后 进一步 安装 作 好 了 准备 。 所 以 ， 这 种 初始 的 安装 也 可 以 称 作 “ 预 安装 ” 有 关 详 情 可 参阅 /proc 
文件 系统 的 安装 。 

在 安装 了 系统 的 总 根 以 后 ， 系 统 的 初始 化 过 程 还 会 调用 mount_devfs_fs( ) 对 devfs 作 进 一 步 的 安装 
(fs/devts/base.c): 


3363 void __init mount_devfs_fs (void) 


3364 { 

3365 int err; 

3366 

3367 if ( (boot options & OPTION NOMOUNT) ) return; 

3368 err = do mount ("none”, "/dev^, “devfs”, 0, "7j; 

3369 if (err == 0) printk (“Mounted devfs on /dev\n”) ; 

3370 else printk (Warning: unable to mount devfs, err: %d\n”, err); 


3371 } /Æ End Function mount devfs fs */ 


可 见 ， 特 殊 文 件 系统 devfs 的 安装 点 是 “/dev”。 山 于 devfs fs type "FÉ FS. SINGLE 标志 位 为 1， 
安装 时 会 把 保存 在 devfs_fs_type 中 的 vfsmount 结构 指针 安装 到 “/dev” 节 点 上 。 


完成 了 devfs 的 安装 以 后 ， 各 种 设备 的 驱动 程序 就 可 以 通过 devfs_register_chrdev( ) 或 
devfs register blkdev( )|h] devfs 登记 ， 从 而 在 /dev 目录 下 创建 起 相应 的 节点 。 
(1) iÑ} devfs register chrdev( ) 回 devfs 登记 一 类 设备 的 主 设备 号 、 设 备 名 以 及 file_operations 数 
据 结 构 ， 建 立 起 三 者 间 的 联系 。 主 设备 号 可 以 是 静态 指定 的 ， 也 可 以 要 求 devfs 动态 地 分 配 。 
(2) 或 者 通过 devfs_register_blkdev( ) 向 devfs 登记 -类 设备 的 主 设 备 号 、 设 备 名 以 及 
block device, operations 数据 结构 ,建立 起 三 者 间 的 联系 。 同 样 , 主 设备 号 可 以 是 静态 指定 的 ， 
也 可 以 要 求 devfs 动态 度 分 配 。 
(3) “通过 devfs mk dir( Y2 Eoi. 
(4) ”通过 devfs register( ) 登 记 有 具体 的 设备 ， 并 在 指定 目 孙 下 建立 叶 节 点 。 
在 “可 安装 模 委 ”一 他 所 中 的 实例 中 ， 读 者 可 以 看 刘 一 个 虞 卡 阮 动 模块 在 初始 化 时 首先 通过 
devfs register chrdev( ) 登 记 驶 动 程序 ， 并 且 看 到 这 个 函数 实际 上 通过 register. chrdev( ) 完 成 登记 。 所 谓 
“登记 ” 实际 上 就 是 把 给 定 的 file operations 结构 指针 填 入 chrdevs[ ] 中 的 某 个 元 素 ， 出 设备 的 主 设备 
号 ， 则 就 站 用 于 这 个 数组 的 下 标 。 人 在 老 的 方案 中 ， 主 设备 号 都 是 静态 地 指 徙 好 的 ， 声 开设 备 的 主 设备 
Fæ SOUND MAJOR. 。 而 在 devfs 中 ， 则 既 可 以 继续 延 几 静态 的 主 设备 号 ， 也 可 以 在 调用 
devfs_register_chrdev( ) 或 register_chrdev( ) 时 以 0 为 主 设备 号 ， 表 示 睹 求 devfs 动态 地 分 配 个 。 其 实 ， 
不 管 是 否 采 用 devfs， 都 要 先进 行 登记 ， 这 样 才能 在 打开 文件 时 根据 主 设备 号 找到 该 设备 的 
file operations 结构 。 不 同 的 是 ， 企 老 方 案 中 这 个 主 设备 号 必须 是 预知 的 ， 这 样 才能 从 内 梳 外 部 通过 
mknod( ) 在 /devy 日 录 下 创建 起 相应 的 节点 。 而 在 devfs 中 ， 则 可 以 先 动态 分 配 主 设备 写 ( 并 登记 )， 然 后 
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才 在 内 核 中 (内 部 ) 通 过 devfs_register( ) 在 特殊 文件 系统 中 创建 节点 。 谭 且 ， 在 devfs_register( ) 之 果 还 可 
以 根据 需要 通过 devfs mk dir( ) 建 立 起 若干 中 间 节 点 。 这样, 只 要 在 设备 驱动 模块 与 应 用 程序 在 路 径 包 
的 使 用 上 有 默契 就 行 了 ， 主 设备 号 的 使 用 实际 上 是 透明 的 。 所 以 ，devfs_mk_dir( ) 和 devfs_register( ) 才 
是 devfs 的 关键 所 在 。 先 看 devfs_mk_dir( )， 其 代码 在 fs/devfs/base.c 中 : 





1530 /** 

1531 * devfs mk dir - Create a directory in the devfs namespace. 

1532 * @dir: The handle to the parent devfs directory entry. If this is %NULL the 
1533 * new name is relative to the root of the devfs. 

1534 * (name: The name of the entry. 

1535 * @info: An arbitrary pointer which will be associated with the entry. 

1536 * 

1537 * Use of this function is optional. The devfs_register( ) function 

1538 * will automatically create intermediate directories as needed. This function 
1539 * is provided for efficiency reasons, as it provides a handle to a directory. 
1540 * Returns a handle which may later be used in a call to devfs unregister( ). 
1541 * On failure WNULL is returned. 

1542 */ 

1543 

1544 devfs handle t devfs mk dir (devfs handle t dir, const char *name, void *info) 
1545 | 

1546 int is new; 

1547 struct devfs entry *de; 

1548 

1549 if (name == NULL) 

1550 { 

1551 printk (“%s: devfs mk dir( ): NULL name pointer\n”, DEVFS NAME); 

1552 return NULL; 

1553 } 

1554 de = search for entry (dir, name, strlen (name), TRUE, TRUE, &is new, 

1555 FALSE) ; 

1556 if (de == NULL) 

1557 { 

1558 printk (“%s: devfs mk dir( ): could not create entry: \"%s\"\n", 

1559 DEVFS NAME, name); 

1560 return NULL; 

1561 } 

1562 if (!S TSDIR (de >mode) && de->registered) 

1563 { 

1564 printk ("*s: devfs mk dir( ): existing non-directory entry: \"%s\"\n", 
1565 DEVFS NAME, name); 

1566 return NULL; 

1567 } 

1568 Hifdef CONFIG DEVFS DEBUG 

1569 if (devfs debug & DEBUG REGISTER) 

1570 printk ("%s: devfs mk dir(%s): de: %p %sNn ， 

1571 DEVFS NAME, name, de, is new ? "new" ; "existing ^); 
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1572 Hendif 


1573 if (!S ISDIR (de->mode) && !is new) 

1574 { 

1575 /* Transmogrifying an old entry  */ 

1576 de->u. dir. first = NULL; 

1577 de->u. dir. last = NULL; 

1578 } 

1579 de-^»mode = S IFDIR | S IRUGO | S 1XUGO; 

1580 de-Yinfo = info; 

1581 if (!de->registered) de->u. dir. num removable = 0; 
1582 de-?registered = TRUE; 

1583 de—>show_unreg = (boot options & OPTION SHOW) ? TRUE : FALSE; 
1584 de~>hide = FALSE; 

1585 return de; 


1586 ) /*® End Function devfs mk dir */ 


参数 dir 18 In] 42 A SKI] devfs entry £& XJ, BRA devfs handle t 实际 上 就 是 devfs_entry 指针 , 3E 
SCF include/linux/devfs. fs. kernel.h: 


45 typedef struct devfs entry * devfs handle t; 


这 个 函数 的 主体 是 search for entry( )， 通 过 它 在 dir 下 向 的 了 树 中 找到 或 首创 建 日 标 节点 的 
devfs_entry 结构 。 然 后 ， 如 果 是 新 创 的 站点， 则 加 以 设置 。 国 数 search_for_entry( ) 的 代码 也 在 
fs/devfs/base.c "P: 


[devfs mk dir( ) > search_for_entry( )] 


873 [ek 

874 * search for entry - Search for an entry in the devfs tree. 

875 * @dir: The parent directory to search from. If this is %NULL the root is used 
876 * (name: The name of the entry. 

877 * @namelen: The number of characters in @name. 

878 * Q@mkdir: If WTRUE intermediate directories are created as needed. 

879 * @mkfile: If %TRUE the file entry is created if it doesn't exist. 

880 * @is new: If the returned entry was newly made, %TRUE is written here. If 
8&8] * this is *NULL nothing is written here. 

882 x @traverse symlink: If %TRLE then symbolic links are traversed. 

883 * 

884 * If the entry is created, then it will be in the unregistered state. 

885 * Returns a pointer to the entry on success, else 9*WULI. 

886 */ 

887 

888 static struct devfs entry *search for entry (struct devfs entry *dir, 

889 const char *name, 

890 unsigned int namelen, int mkdir, 

891 int mkfile, int *is now, 

892 int traverse symlink) 
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int. len; 
const char *subname, *stop, **ptr; 
struct dovfs entry *entry; 


if (is new) *is new = FALSE; 
if (dir == NULL) dir = get root entry( ); 
if (dir — NULL) return NULL; 
/* Extract one filename component  */ 
subname - name; 
stop = name + namelen; 
while (subname € stop) 
| 
/* Search for a possible ° / */ 
for (ptr = subname; (ptr < stop) && Ckptr != 
if (ptr >= stop) 
{ 
/* Look for trailing component */ 
len = stop ~ subname; 


3-8 


entry = search for entry in dir (dir, subname, len, 


traverse symlink); 
if (entry != NULL) return entry; 
if (!mkfile) return NULL; 
entry - create entry (dir, subname, len); 
if (entry && is new) *is new - TRUE: 
return entry; 
} 
/* Found ’/’: search for directory */ 
if (strnemp (subname, ^../^, 3) == 0) 
{ 
/* Going up */ 
dir = dir ?parent; 


if (dir == NULL) return NULL; /* Cannot escape from devfs 


subname += 3; 
continue; 


len = ptr - subname; 


ttptr); 


*/ 


entry = search for entry in dir (dir, subname, len, traverse symlink); 


if (lentry && !mkdir) return NULL; 
if (entry == NULL) 


| 
/* Make it */ 
if ( ( entry = create_entry (dir, subname, len) ) == NULL ) 
return NULL; 
entry-^?mode - S IFDIR | S IRUGO | S IXUGO | 
if (is new) *is now - TRUE; 
} 


if ( !S ISDIR (entry-^modo) ) 


s IWDSR; 
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941 { 

942 printk (“%s: existing non-directory entry\n”, DEVFS NAME); 
043 return NULL; 

944 } 

945 /* Ensure an unregistered entry is re-registered and visible */ 
946 entry—>registered = TRUE; 

947 entry-»hide = FALSE; 

948 subname = ptr + 1; 

949 dir = entry; 

950 } 

951 return NULL; 


952 ) /* End Function search for entry */ 


这 个 函数 返回 指向 找到 或 新 创建 的 devfs entry 结构 的 指针 ， 并 通过 副作用 返回 参数 is new, BI 
这 个 devfs entry 结构 是 省 新 创 。 如 果 和 参数 dir 为 0， 则 以 devfs HRW RAR TR. BR name 指 朵 一 
个 相对 路 和 从 名。 代码 中 通过 一 个 while 循环 顺 着 相对 路 径 名 中 的 节点 逐步 向 前 排 进 ， 每 一 步 部 通过 
search_for_entry_in_dir( ) 在 当前 日 录 中 找到 下 个 节点 (930 77), Ar REI BI tai ct create_entry( ) 自 动 
补 上 一 个 中 间 节 点 。 最 后 ， 当 路 径 名 中 独 下 的 部 分 不 青 有 “/” 字 符 存在 时 ， 这 就 是 日 标 节 点 了 (908 行 )。 
对 于 日 标 节点 , 也 是 先 通过 search_for_entry_in_dir( ) 在 当前 日 录 中 寻找 , 恕 果 找 不 到 就 通过 create. entry 
创建 。 对 于 读 过 path_walk( ) 的 读者 ， 这 只 不 过 是 “小菜 - 碟 ”。 全 于 search for entry in dir(), HAH 
也 在 fs/devfs/base.c 中 , 我 们 把 它 列 在 下 面 供 读者 自己 岗 读 , 从 中 可 以 理解 对 devfs_entry 结构 中 的 union 
的 运用 。 


[devfs mk dir( ) > search_for_entry( ) > search_for_entry_in_dir( )] 


738 static struct devfs entry *search for entry in dir (struct devfs_entry *parent, 


139 const char *name, 

140 unsigned int namelen, 

741 int traverse symlink) 

742 { 

743 struct devfs_entry *curr; 

744 

745 if ( !S ISDIR (parent—>mode) ) 

746 { 

747 printk (“%s: entry is nol a directory\n’, DEVFS NAME); 

148 return NULL; 

149 } 

750 for (curr = parent->u, dir. first; curr != NULL; curr = curr-?next) 
751 { 

752 if (curr->namelen != namelen) continue; 

753 if (nemcmp (curr->name, name, namelen) == 0) break; 

754 /* Not found: try the next one */ 

755 } 

756 if (curr == NULL) return NULL; 

757 if (!S_ISLNK (curr->mode) || !traverse symlink) return curr; 
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/* Need to follow the link: this is a stack chomper */ 
return search for entry (parent, 
curr—>u. symlink. linkname, curr-?u. symlink. length, 
FALSE, FALSE, NULL, TRUE) ; 
/* End Function search for entry in dir */ 


通过 devfs, mk. dir ) 创 建 了 所 需 的 日 录 节 点 以 后 ， 就 在 devfs 的 目录 系统 中 为 目标 设备 建立 起 了 一 


个 框架 ， 最 后 玉 要 通过 devfs_register( ) 为 基体 的 设备 创建 里 标 节 点 。 这 个 鹃 数 的 代码 在 fs/devfs/base.c 


ek 


x 0X X X X X X X X X X X X Xo X Ke X 


* 
~ 


devfs register - Register a device entry. 

@dir: The handle to the parent devfs directory entry. lf this is %NULL the 
new name is relative to the root of the devfs. 

name: The name of the entry. 

@flags: A set of bitwise-ORed flags (DEVFS PL *). 

@major: The major number. Not needed for regular files. 

@minor: The minor number. Not needed for regular files. 

@mode: The default file mode. 

@ops: The &file operations or &block device operations structure. 
This must not be externally deallocated. 

@info: An arbitrary pointer which will be written to the Gprivatoe data 

field of the &file structure passed to the device driver. You can set 

this to whatever you like, and change it once the file is opened 

(the next file opened will not see this change). 


Returns a handle which may later be used in a call to devfs unregister( ). 
On failure “NULL is returned. 


devfs handle t devfs register (devfs handle t dir, const char *name, 


unsigned int flags, 
unsigned int major, unsigned int minor, 
umode t mode, void *ops, void *info) 


int is new; 
struct devfs entry *de; 


if (name -- NULL) 

{ 

printk (“%s: devfs_register( ): NULL name pointer\n”, DEVFS NAME) ; 
return NULL; 

} 

if (ops == NULL) 

{ 

if ( S ISBLK (mode) ) ops = (void *) get blkfops (major); 

if (ops == NULL) 
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1251 { 

1252 printk (“%s: devfs register(*s): NULL ops pointer\n’, 

1253 DEVFS NAME, name); 

1254 return NULL; 

1255 } 

1256 printk (“%s: devfs register(*s): NULL ops, got %p from major table\n’, 
1257 DEVFS NAME, name, ops); 

1258 } 

1259 if ( S ISDIR (mode) ) 

1260 { 

1261 printk(%s: devfs_register (%s): creating directories is not allowed\n’, 
1262 DEVFS NAME, name); 

1263 return NULL: 

1264 } 

1265 if ( S ISLNK. (mode) ) 

1266 { 

1267 printk (%s: devfs_register (%s): creating symlinks is not allowed\n’, 
1268 DEVFS NAME, name); 

1269 return NULL; 

1270 ] 

1271 if ( 5 ISCHR (mode) && (flags & DEVFS FL AUTO DEVNUM) ) 

1212 { 

1273 if (next devnum char >= MAX DEVNUM) 

1274 { 

1275 printk (“%s: devfs_register (%s): exhausted char device numbers\n’, 
1276 DEVFS NAME, name); 

1277 return NULL ; 

1278 } 

1279 major = next devnum char >> 8; 

1280 minor - next devnum char & Oxff; 

128] -*next devnum char; 

1282 } 

1283 if ( S ISBLK (mode) && (flags & DEVFS FL AUTO DEVNUM) ) 

1284 { 

1285 if (next devnum block >= MAX DEVNUM) 

1286 { 

1287 printk (“%s: devfs register (%s): exhausted block device numbers\n’, 
1288 DEVFS NAME, name); 

1289 return NULL; 

1290 } 

1291 major = next devnum block >> 8; 

1292 minor = next devnum block & Oxff; 

1293 Ttnext devnum black: 

1294 } 

1295 de = search for entry (dir, name, strlen (name), TRUE, TRUE, &is new, 
1296 FALSE) ; 

1297 if (de == NULL) 

1298 { 
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printk (“%s: devfs register( ): could not create entry: \"%s\"\n’, 
DEVFS_NAME, name) ; 
return NULL; 


} 


#ifdef CONFIG DEVFS DEBUG 


if (devfs debug & DEBUG REGISTER) 
printk ("%s: devfs register (%s): de: %p %s\n”, 
DEVFS NAME, name, de, is new ? “new” : "existing ); 


Hendif 


if (tis new) 

{ 

/* Existing entry */ 

if ( !S ISCHR (de->mode) && !S ISBLK (de->mode) && 
!S ISREG (de-^mode) ) 


{ 
printk (“%s: devfs register( ): existing non-device/file entry: \“%s\"\n’, 
DEVFS NAME, name); 
return NULL; 


if (de->registered) 


printk("*s: devfs register( ): device already registered: \"%s\"\n’, 
DEVFS NAME, name); 
return NULL; 
) 
} 
de->registered = TRUE; 
if ( S ISCHR (mode) |. S ISBLK (mode) ) 
{ 
de->u. feb. u. device. major > major; 
de-?u. feb. u. device. minor = minor; 
} 
else if ( S ISREG (mode) ) de->u. fcb. u. file. size = O0; 
else 
{ 
printk (“%s: devfs register( ): illegal mode: %x\n’, 
DEVFS NAME, mode); 
return (NULL); 
} 
de->info = info; 
de->mode = mode; 
if (flags & DEVFS FL CURRENT OWNER) 
{ 
de->u. fcb. default uid = current-—>uid; 
de->u. fcb. default gid = current—>gid;: 
} 
else 


{ 
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1347 de->u. fch. default uid = 0; 

1348 de->u. fcb. default gid = 0; 

1349 } 

1350 de->registered = TRUE; 

1351 de->u. fcb. ops = ops; 

1352 de->u. fcb. auto owner = (flags & DEVFS FL AUTO OWNER) ? TRUE : FALSE; 
1353 de->u, fcb. aopen notity = (flags & DEVFS FL AOPEN NOTIFY) ? TRUE : FALSE; 
1354 if (flags & DEVFS PL REMOVABLE) 

1355 { 

1356 de->u. feb. removable = TRUE; 

1354 ++de->parent—u. dir. nun. removable; 

1358 } 

1359 de->u. fcb. open = FALSE; 

1360 de->show_unreg = ( (boot options & OPTION SHOW) 

1361 || (flags & DEVFS FL SHOW UNREG) ) ? TRUE : FALSE; 

1362 de-^hide = (flags & DEVFS FL HTDE) ? TRUE : FALSE; 

1363 de-^no persistence = (flags & DEVFS TL NO PERSISTENCE) ? TRUE : FALSE; 
1364 devfsd notify (de, DEVFSD NOTIFY REGISTERED, flags & DEVFS FL WAIT); 
1365 return de; 


1366 ;  /f* End Function devfs registor */ 


我 们 知道 ,“ 设 备 文件 ”节点 的 实质 就 在 于 : 把 代表 者 里 标 设备 的 文件 名 (路 径 名 ) 与 具体 的 “对 象 ” 
EELA, AR- ERSE (通过 主 设备 号 ) 以 及 具体 的 数据 结构 (通过 次 设备 邱 )。 在 老 的 方案 中 , E 
设备 号 就 惟一 地 依 定 了 一 个 file_operations 数据 结构 。 相 比 之 下 ， 在 devfs 中 提供 了 更 大 的 灵活 性 ， 在 
调用 devfs_register( ) 时 可 以 通过 参数 ops 传 下 一 个 file operations 结构 指针 ， 只 是 当 ops 为 0 NAKA 
由 主 设备 号 确定 的 file_operations 数据 结构 。 主 /次 设备 号 则 紫 可 以 作为 参数 传 下 米 ， 也 可 以 出 系统 产 
牛 。 

同样 ， 这 里 也 是 道 过 search_for_entry( ) 在 以 dir 为 根 的 子 树 中 找到 或 创建 目标 节点 的 devfs_entry 
数据 结构 (1295 行 )， 只 不 过 这 一 次 把 devfs_entry 结构 用 作 feb WA, mie Hos. Bln, ARE 
调用 了 :个 函数 devfsd_notify( )， 上 是 的 在 于 为 devfsd 进程 准备 下 -一 些 信息 并 将 其 唤醒 ， 让 它 知道 现在 
devfs 中 又 多 了 一 个 设备 节点 。 

此 后 应 用 进程 就 可 以 道 过 新 的 devis 格式 的 路 径 名 打开 设备 文件 , 此 后 的 操作 就 与 原来 的 没有 什么 
不 同 了 。 显 然 ， 如 果 把 月 标 节 点 直接 建立 在 devfs 的 根 日 录 ， 即 /dev 下 面 ， 关 日 符合 从 前 对 设备 名 的 约 
定 ， 那 么 从 应 用 程序 的 角度 看 就 与 老 的 方案 没有 什么 不 同 了 。 
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9.1 概述 


在 过 去 的 10 年 里 ， 微 处 型 器 的 速度 增长 了 近 100 倍 ,， 但 是 尽管 如 此 ，CPU 的 最 和 岛 速 嵌 总 是 受到 当 
时 技术 条 件 的 限制 。 在 给 定 的 时 间 里 ，CPU 能 达到 的 最 商 速 度 总 是 给 定 的 ， 再 划 提 高 速度 就 只 好 设法 
增加 并 行 度 ， 方 法 之 一 跌 是 在 计算 机 中 使 用 多 个 处 理 器 ， 所 以 ， 多 处 型 器 结构 很 长 时 间 以 来 一 直 起 计 
算 机 科 ? 尝 与 技术 的 “个 重要 分 文 。 人 在 长 期 的 研究 中 ， 人 们 先后 开发 了 几 种 重要 的 多 处 理 器 系统 结构 模 
型 ， 其 中 之 一 就 是 所 详 “ 对 称 多 处 理 右 结构 ”(Semetric Multi-Processor Architecture)， 缩 写 为 SMP， 这 
是 一 种 比较 简单 的 多 处 理 嚣 系统 结构 。SMP 是 一 种 系统 结构 的 模型 ， 不 过 为 行文 的 方便 我 们 在 本 书 中 
也 常常 把 洪 用 SMP 结构 的 计算 机 系统 简称 为 SMP 结构。 还 有 ， 在 本 书 中 讲 到 SMP 结构 时 大 多 专 指 采 
用 Intel Pentium 处 理 器 的 系统 ， 但 是 也 有 上 毕 场合 是 演 指 ， 读 者 要 根据 上 下 交加 以 区 分 。 

住 这 种 系统 结构 中 ， 所 有 的 CPU 在 这 行 时 【〈 除 系统 引导 利 初始 化 以 外 ) 都 是 “对 称 ” 的 ， 或 者 说 
都 趾 “ 平 等 ”的 ， 没 有 主 次 之 分 ， 通 销 物理 上 也 采用 门 一 种 CPU《 在 这 样 的 系统 小 ， 实 际 上 已 经 没有 
Aria “PR abs ee” D. (AA AT SOA BVA CPU Xon. ANEA). FERE] CPU 通过 同一 条 
FASE EE [8] — T P EP ELLA THUR. AS ta al A ESE, SMP 结构 中 的 各 个 CPU 通常 都 有 白 
山 的 高 速 缓存 。 图 9.1 给 出 了 SMP 系统 结构 异型 示意 图 。 

对 于 Intel 的 Pentium 处 理 器 (以 及 商 十 Pentium 的 处 理 器 ， 下 同 )， 系 统 中 最 多 可 以 容纳 32 个 平 
TT EAE SR. 

各 个 CPU BATE GEB AEE DA SUE CBE HD. 进程 如 以 执行 。 一 个 进程 在 本 同 的 时 间 
中 可 以 在 不 同 的 CPU 上 运行 ; 中 断 请 求 则 动态 地 分 配给 其 中 的 某 个 CPU， 由 这 个 CPU 提供 中 断 服务 。 
除 一 般 的 共 旱 内 仓 外， 处 埋 堪 间 的 通信 手段 人 还 有 进程 间 遂 信和 处 理 器 之 问 的 中 断 请 求 。 如 前 所 述 ， 通 
常 每 个 CPU 都 配备 了 自己 的 高 速 缓 神 存储 占 ， 以 减少 访问 内 存 时 的 冲突 ， 另 方面 ， 虽 然 系 统 中 所 有 
的 处 理 器 都 采用 相同 的 时 钟 脉冲 ， 但 是 由 十 指令 的 长 短 不 一 ， 加 上 访问 内 存 时 可 能 会 有 的 冲突 以 及 高 
速 绥 存 的 使 用 等 等 因素 ， 一 般 而 二 指令 的 边界 是 不 能 对 齐 的 。 因 此 ， 系 统 中 的 各 个 CPU 都 在 独立 地 、 
异步 地 执行 指令 。 
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图 9.1 SMP 结构 模型 


这 样 的 结构 适合 十 此 求 提高 系统 总 的 “ 知 性 量 ”"， 人 得 候 系 统 中 的 各 个 进程 则 互相 独立 的 那些 应 用 。 
例如 ， 网 络 服 务 器 就 是 一 个 很 好 的 例子 ， 因 为 网 络 服务 句 在 同 “时间 中 要 啊 应 人 量 的 “点 击 ”， 而 对 这 
些 点 击 的 服务 又 是 世相 独立 的 〈 尽 管 实际 执行 的 程序 很 可 能 相同 )。 考 虑 旬 这 一 点 ， 以 及 近年 来 对 网 络 
服务 器 的 大 量 需 求 , 就 不 准 明 白 为 什么 这 几 年 SMP 结构 变 得 这 么 热门 了 。 至 二 是否 可 以 通过 采用 SMP 
结构 的 计算 机 来 提 启 解 算 大 问 题 的 速度 ， 则 取决 十 是 否 存 在 好 的 并 行 算法 ， 从 而 串 以 有 效 地 把 给 定 的 
大 问题 分 解 成 若 丁 可 以 并 发 执行 的 进程 。 男 一 方面 ，SMP 足 ” 种 通用 的 系统 结构 ， 用 它 来 实现 些 重 
要 的 并 行 算法 往往 不 如 一 些 专 用 的 系统 结构 (如 “同性 机 ”结构 ) 那么 有 效 。 

但 是 ， 与 单 处 理 器 结构 柑 比 ，SMP 结构 的 实现 有 些 特 殊 的 问题 需 燃 考 卡 种 解 决 。 


首先 是 处 理 器 癌 的 同步 与 立 床 。 从 密 观 上 说 这 也 是 个 进程 间 通 信 的 问题 ， 但 是 多 个 处 理 器 的 存在 
使 这 个 问题 更 复杂 化 了 。 在 单 处 理 器 结构 中 ， 备 个 进程 在 宏观 上 是 并 行 的， 但 是 在 微观 上 却 是 出行 的 ， 
因为 在 同一 时 间 点 上 内 有 -个 进程 走 止 在 运行 (系统 中 只 有 一 个 处 理 器 )， 因 此 称 为 “并 发 "。 在 这 样 
的 系统 中 ， 保 证 进程 间 的 间 步 与 互 斥 是 比较 容易 的 。 辐 启 一 下 “临界 区 ”的 实现 ， 就 可以 明白 进程 间 
的 同步 实际 上 可 以 归结 到 对 临界 资源 的 互 斥 操作 。 人 在 单 处 理 器 结构 中 ， 只 要 能 保证 在 对 临 内 资源 的 操 
作 中 途 不 会 发 牛 进程 调 度 ， 并 且 不 会 发 生 中 断 ， 或 者 即使 发 二 了 中 断 也 与 操作 的 对 象 无 关 ， 就 保证 了 
操作 的 互 斥 性 。 即 使 在 极端 的 情况 下 〈 例 如 不 允许 关中 断 ?)， 只 要 对 临 外 资源 的 操作 能 在 单条 指令 中 完 
成 ， 那 也 保证 了 操作 的 芋 斥 性 ， 因 为 中 断 只 能 发 生 于 指令 之 问 ， 而 不 会 发 牛 在 执行 一 条 指令 的 路途。 
一 般 而 童 ， 愉 可 能 保证 对 临界 资源 操作 的 “ 原 了 性 ”， 互 斥 性 就 保证 了 。 所 以 ， 在 单 处 球 器 结构 中 ， 能 
够 企 单 条 指令 中 完成 的 操作 就 认为 是 “ 原 了 操作 ”。 这 也 是 为 什么 一 些 CPU 指令 系统 中 设置 了 “测试 
并 设置 “测试 并 清除 ”等 指令 的 原因 , 这 些 指令 主 晓 都 是 用 十 对 临界 资源 的 旺 斥 操作 ,中 是 , 在 SMP 
结构 中 就 不同 了 ， 由 于 系统 小 有 多 个 处 理 器 在 独立 地 运行 ， 即 使 能 什 单 条 指令 中 完成 的 操作 也 有 可 能 
受到 干扰 。 就 以 “测试 下 设置 ”这 条 指令 为 例 ， 它 先 从 某 个 内 存单 元 读 出 其 内 容 ， 测 试 其 中 的 某 一 位 ， 
并 把 这 一 位 设置 成 1 (也 可 能 原来 就 是 1;y， 再 写 岂 内 存单 元 中 ， 并 根据 测试 的 结果 设置 标 必 位 寄存 器 
中 的 相应 标志 位 。 可 见 ， 企 这 条 指令 的 执行 过 程 中 旨 访 问 内 存 岗 次 ， 形 成 一 个 “ 读 一 改 一 扎 ” 的 过 程 ， 
这 个 过 程 中 的 等 … 步 部 是 “个 “ 微 操 作 ” 整 条 指令 则 由 若干 微 操 作 构成 。 才 是 ， 在 SMP A RP se 
全 有 可 能 发 生 这 样 的 情况 ; 

(1) CPUI 从 一 个 特定 的 内 存单 元 读 出 ， 开 测试 到 其中 的 菜 -位 (假定 是 bit4) 为 0， 然 后 将 这 位 
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HUR 1。 
(2) 在 CPU1 还 没有 来 得 及 把 修改 后 的 结果 扎 回 该 内 存单 元 之 前 ，CPU2 BAR -内 存单 元 读 出 ， 
也 测试 到 bit4 为 0， 然后 也 将 这 位 改 成 1。 
(3) 然后 ，CPU1 把 修改 后 的 结果 写 回 内 存单 元 。 山 于 该 内 存单 元 的 bit4 原来 是 0，CPU1 便 以 为 
取得 了 该 项 临 鼻 资 源 ， 并 且 确 倍 不 会 有 其 他 进程 前 来 打扰 .在 CPU1 看 来 ， 尼 已 经 把 这 个 内 
存单 元 的 bit4 改 成 了 1， 如 果 其 他 进程 再 来 对 此 项 临界 资源 执行 “测试 并 设置 ”操作 ， 就 会 
因此 而 被 大 在 门 外 。 
(4) 然后 ，CPU2 也 把 修改 后 的 结果 号 回 内 存单 元 ， 也 以 为 取得 了 该 需 临界 资源 ， 也 确信 不 会 有 
其 他 进程 可 以 前 来 打扰 。 
可 是 ， 实 际 上 这 两 个 CPU 之 间 的 互相 干扰 已 是 十 分 可 能 的 了 。 这 个 例子 告诉 我 们 ， 与 单 处 理 器 结 
构 相 比 ，SMP 结 和 多 对 凸 斥 操 作 的 微 坑 “分 辨 率 ” 需 更 高 ,有些 在 单 处 理 器 结构 中 的 “原子 操作 ”在 SMP 
结构 中 不 再 是 原子 的 了 。 





第 二 个 问题 是 高 速 缓存 与 内 存 之 间 ( 内 容 的 ) 的 一 敏 性 问题 。 在 单 处 理 结 构 中 , 使 用 高 速 缓存 的 有 日 的 
仪 在 于 通过 提高 CPU 取 指 令 和 读 / 写 数据 的 速度 来 改善 系统 的 性 能 。 高 速 缓 存 与 内 存 的 关系 跟 组 六 页 
面 与 磁盘 上 记录 鼎 的 关系 相似 。 当 CPU 此 从 内 存 读数 据 时 ， 高 速 缓存 的 硬件 会 先 根 据 目标 地 址 检查 这 
部 分 数据 是 否 已 经 在 高 速 缓 在 中 ， 如 果 是 ， 就 不 需要 从 内 存 中 读 了 ; SW, WAAK HERRIEK] - 
小 块 数据 ， 称 为 ”条 缓冲 线 (cache line)， 以 较 高 的 速度 装 入 高 迷 缓 存 。- HOR AT eee, ENAA 
于 同 ，: 缓 冲 线 的 内 存单 苑 读数 据 时 就 能 在 高 速 缓 丰 中“ 命中” 因 侧 不 需要 到 内 存 中 去 恋 了 。 高 速 组 存 
中 的 内 容 也 像 缓 冲 页 面 那样 随时 间 而 “老化 ” 当 高 述 缓存 的 容量 不 够 时 就 把 最 老 的 缓冲 线 内 容 丢 莽 ， 
从 而 达到 周转 使 用 高 速 缓存 空间 的 目的 。 此 外 ， 软 件 也 可 以 通过 特定 的 指令 主动 将 高 速 缓存 中 属 丁 茶 
个 内 存 区 间 的 内 容 丢 齐 ， 以 后 要 从 这 个 区 间 读 时 就 又 从 内 存 装 入 。 读 者 以 前 看 记过 ， 通 过 DMA E, 
从 外 设 读 入 以 后 要 技 齐 与 DMA 缓冲 区 对 应 的 缓冲 线 内 容 ， 就 足 因 为 DMA RERET AP DMA 
缓冲 区 的 内 容 ， 使 得 高 速 缓存 与 内 存 不 一 禾 了 。DMA 操作 是 趾 没 备 驱 动 程序 安排 启动 的 ， 所 以 设备 驱 
动 程序 知道 应 该 在 操作 完成 以 后 丢 奔 商 速 缓存 的 内 容 。 但 是 ， 在 SMP 结构 中 情况 就 更 复 藉 了， 因为 一 
个 CPU 并 不 知道 别 的 CPU 会 在 何 时 改变 内 存 的 内 容 。 采 用 高速 缓存 时 的 写 操作 有 两 种 模式 ， 一 种 称 
为 “ 穿 透 ”(Write-Through) 模 式 ， 人 在 这 种 模式 中 高 迷 缓 在 对 填写 捉 作 就 好 像 不 存在 一 样 ， 每 次 写 时 都 让 
接 写 到 内 存 中 ， 所 以 实际 上 只 是 对 恋 操 作 使 用 高 速 缓存 ， 囚 而 效 源 相对 较 低 。 另 一 种 称 为 “四 号 ” 
(Write-Back) 模式 ， 写 的 时 候 先 写 入 高 速 缓存 ， 然 后 由 高 速 缓存 的 使 件 在 周转 使 用 缓冲 线 时 日 动 写 入 
内 存 ， 或 者 由 软件 主动 地 “冲刷 ”有 关 的 缓冲 线 。 因 此 ， 人 在 改变 了 缓冲 页 面 的 内 容 ， 并 启动 DMA 5S 
操作 将 其 写 同 夏 枚 之 前 要 先 “ 冲 刷 ” 高 速 绥 存 中 有 关 的 缓冲 线 ， 因 为 改变 了 的 内 容 可 能 还 没有 回 与 到 
内 存 缓冲 区 中 。 

从 功能 和 作用 的 角度 看 ， 可 以 把 岛 速 缓存 分 成 三 部 分 。 

(1) 对 访问 内 存 的 缓冲 (Cache)， 其 作用 类 似 于 访问 磁盘 时 的 缓冲 ， 包 括 对 数据 和 指令 岗 方 面 的 组 

冲 ， 这 一 部 分 是 本 来 意义 上 的 “高 速 缓存 ”， 不 过 ， 对 指令 的 缓冲 基本 上 是 透明 的 ， 我 们 这 
里 关心 的 只 是 对 数据 的 缓冲 。 此 外 ， 高 述 缓存 在 物理 上 往往 分 成 级 (L1) 利 二 级 (L2) 两 部 分 ， 
但 是 从 软件 的 角度 看 并 无 不 同 。 

(2) 页 而 喘 射 目下 和 抽 面 映射 表 的 缓冲 存储 (CTLB)。 我 们 在 第 2 章 中 曾经 讲 到 ， 为 了 加 快 页 面 映 
射 的 速度 ， 丰 页 面 峡 射 的 过 程 实际 上 并 不 是 每 次 部 到 内 存 中 访问 页 身 映 嘲 目 录 利 页 面 映射 
志 ， 而 是 将 它们 所 在 的 页 而 装 入 CPU 内 部 ， 以 加 快 地 由 转换 的 速度 。 这 里 所 谓 “CPU 内 部 ” 
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其 实 就 是 高 速 缓存 的 一 部 分 ， 称 为 TLB， 即 “地址 转换 /得 找 缓冲 区 ”(Translation Lookaside 
Buffers );， 因 为 其 目的 在 于 地 址 映射 。 
(3) 第 二 部 分 是 写 内 存 缓冲 区 (Write Buffery)。 在 多 处 理 器 系统 中 ， 当 -个 处 理 器 启动 对 内 存 的 写 
操作 时 ， 有 可 能 系统 总 线 已 被 锁 住 ， 或 者 其 他 处 理 器 正在 装 入 / 气 回 :条 缓冲 线 ， 此 时 CPU 
把 要 写 的 内 容 暂 时 所 在 缓冲 区 中 ， 继 续 往 下 执行 而 不 必 停 下 来 等 待 。 然 后 ， 当 条 件 允 许 时 ， 
缓冲 区 的 有 关 硬 件 会 把 暂时 缓冲 着 的 内 容 写 辐 内 存 。 

高 速 缓存 与 内 存 一 致 性 的 问题 ， 对 于 TLB 和 数据 的 缓冲 在 表现 上 和 处 理 上 有 所 不 同 。 

在 CPU 中 有 个 寄存 器 ， 称 为 “存储 类 型 及 范围 寄存 器 ”(Memory Type Range Register)MTRR, Ñ 
过 这 个 寄存 器 可 以 将 内 存 中 的 不 同 区 间 设 置 成 使 用 或 不 使 用 高 速 缓 存 ， 以 及 对 于 写 操 作 采 用 穿 透 模式 
或 回 写 模式 。 有 具体 地 ， 可 以 把 每 一 个 内 存 区 间 设 置 成 下 列 几 种 模式 : 

(1) 不 缓冲 。 

(2) Seth, FB. 

(3) Be, EISE. 

(4) ” 写 保 护 ， 只 允许 读 不 允许 写 。 

此 外 ，MTRR 还 支持 FE “EAS” (write combining) 模 式 ， 财 于 跟 写 入 次 序 无 关 的 区 间 。 例 如 ， 
图 像 缓 冲 区 就 是 这 样 的 区 各 : 把 MARR RSA, BORE, PSR, MARS Mare 
果 上 并 无 不 同 。 当 然 ， 这 种 模式 对 于 操作 系统 内 核 是 不 适合 区 

其 实 ， 除 MTRR 以 外 ， 遂 过 其 他 控制 寄存 器 也 能 从 总 体 上 或 按 抽 面 方 式 控制 高 速 绥 存 的 方式 ， 内 
古 没 有 采用 MTRR 时 那样 的 灵活 性 和 控制 精度 而 已 。 再 说 在 Pentium 以 前 的 处 理 器 中 根木 就 没有 
MTRR， 所 以 全 Linux 内 核 中 是 否 采 用 MTRR 十 个 选择 项 。 

还 有 个 与 高 速 缓存 密切 相关 的 重要 问题 ， 就 是 高 速 绥 冲 的 运用 有 可 能 改变 对 内 存 操 作 的 次 序 ， 仿 
定 有 两 个 观察 者 ， 一 个 观察 CPU 内 部 高 速 缓 存 受 到 访问 的 次 序 ， 而 另 一 -个 观察 内 存 受 到 访问 的 次 序 ， 
则 二 者 可 能 会 有 相当 大 的 站 异 。 前 者 就 是 程序 小 编排 好 的 次 序 , 所 以 称 作 “指令 序 ”(program ordering). 
后 者 则 是 实际 出 现在 处 理 器 外 部 ， 即 系统 总 线 上 的 次 序 ， 所 以 称 作 “处 理 器 序 ”(processor ordering). 
显然 ， 不 使 用 高 速 缓存 时 二 者 必然 相同 。 而 如 果 使 用 高 速 缓冲 ， 水 就 归 看 具体 的 情况 和 操作 。 如 果 保 
证 “处 理 器 序 ” 与 “指令 序 ” 相 同 ， 就 称 作 “ 强 序 ”(strong ordering); 反之 ， 如 果 “ 处 理 器 序 ” 有 时 
做 可 能 不同 于 “指令 序 ”， RIE “IF” (weak ordering)。 对 于 单 处 理 器 结构 的 系统 ， 这 一 者 的 不 同 
并 不 成 什么 问题 ， 然 而 对 SMP 结构 的 系统 却 可 能 成 为 问题 。 

此 外 ，gcc 在 编 详 过 程 中 进行 的 优化 也 可 能 会 改变 操作 的 次 序 。 这 种 情况 下 的 “指令 序 ” 本 身 就 可 
能 与 程序 编写 者 的 意图 不 同 ， 在 单 处 理 器 系统 中 心 可 能 造成 问题 ， 在 SMP 结构 中 就 更 加 串 能 了 。 

在 SMP 绪 构 中 ， 高 速 缓存 的 作用 比 人 在 单 处 理 器 结构 中 更 为 重 归 ， 央 为 它 不 但 可 以 提高 取 指 令 和 读 
/ 写 数 据 的 速度 ， 偿 有 利于 减少 多 个 CPU 在 访问 内 存 时 的 冲突 。 一 般 的 内 存 都 不 允许 在 同一 时 间 内 ( 同 
个“ 内存 访问 周期 ”内 〉 受 到 多 个 CPU 的 访问 ， 所 以 ， 在 SMP 结构 中 通常 每 个 CPU BH RANA 
速 组 位 ， 从 而 … 晶 把 高 速 缓存 装 满 以 后 ， 就 可 以 运行 相当 长 的 时 间 市 无需 经 常 地 读 / 汪 物 埋 上 的 内 存 。 

如 上 所 述 ， 单 处 理 器 系统 小 的 DMA 操作 都 是 山 设备 驱动 程序 主动 地 启动 的 ， 所 以 设备 驱动 程序 
确切 地 说 是 程序 员 ) 知道 什么 时 候 应 该 玉 疗 哪些 缓冲 线 的 内 容 ， 什 么 时 候 应 该 冲刷 哪些 缓冲 线 的 内 
容 。 可 是 在 SMP 结构 中 就 复杂 了 ， 此 时 每 个 CPU 都 有 可 能 改变 内 存 中 的 内 容 ， 侧 且 是 异步 地 改变 。 
Set, FES CPU 都 上 只 知 道 自 己 何 时 会 改变 内 存 的 内 容 (包括 自己 启动 的 DMA TF), TEENS RR 
别 的 CPU 会 在 什么 时 候 改 变 内 存 的 内 容 ， 也 不 知道 白 己 本 地 的 高 速 缓存 中 的 内 容 是 否 山 经 与 内 存 中 涉 
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一 致 。 反 过 来 ， 每 个 CPU 都 可 能 因为 改变 了 内 存 的 内 容 而 使 其 他 CPU 的 高 速 缓存 变 得 不 一 致 了 。 


第 三 个 问题 是 对 中 断 的 处 理 。 在 单 处 理 器 结构 中 ， 整 个 系统 只 有 -个 CPU， 所 有 的 中 断 请 求 都 由 
这 个 CPU 响应 和 处 理 。 可 是 ， 在 SMP 结构 中 怎么 办 呢 ? 是 固定 让 其 中 的 某 一 个 CPU 处 理 所 有 的 中 断 
请 求 ， 还 是 让 所 有 的 CPU 轮流 处 理 ? 如 果 是 固定 让 一 个 CPU 处 理 ， 那 么 其 他 的 CPU 是 省 就 没有 任何 
中 断 ， 连 称 为 “心跳 ”的 时 钟 中 断 也 没有 了 ? 要 是 那样 ， 万 一 在 那些 CPU 上 运行 的 进程 陷入 了 死 循环 ， 
从 而 永远 没有 机 会 进行 系统 调用 ， 这 些 CPU 岂 不 是 就 永远 不 会 有 进程 调度 了 ? 如 果 是 让 所 有 的 CPU 
轮流 处 理 ， 或 者 谁 空闲 谁 处 理 ， 那 又 怎样 把 中 断 请 求 分 配给 不 同 的 CPU We? 

还 有 ， 后 面 读 者 会 看 到 ， 为 了 解决 上 述 的 问题 ， 就 像 进 程 之 间 要 有 “进程 间 通信 ”的 手段 一 样 ， 
处 理 器 之 间 也 要 有 “处 理 器 间 中 断 ” 的 手段 ， 这 显然 不 是 单 靠 软 件 就 能 解决 的 。 


下 面 ， 我 们 将 结合 Intel 的 1386 结构 ， 主 要 是 Pentium 处 理 器 ， 以 及 Linux 内 核 中 的 有 关 源 代码 来 
看 这 些 问 题 是 如 何 解决 的 。 这 里 要 说 明 一 点 ， 限 于 本 书 的 篇 幅 ， 我 们 不 可 能 对 SMP 结构 这 个 课题 作 企 
面 而 详尽 的 介绍 ， 那 本 身 就 已 经 足够 一 本 专著 的 内 容 。 事 实 上 ，Curt Schimmel 的 《UNIX Systems for 
Modern Architectures) “. 书 就 是 这 方面 的 经 典 著作 。 同 时 ， 我 们 也 不 可 能 就 Pentium 处 理 器 对 SMP £i 
构 的 支持 作 详 尽 的 介绍 。 需 要 深入 研究 SMP 结构 的 读 省 应 该 进一步 阅读 有 关 的 专营 和 Intel 提供 的 技 
术 资 料 〈 吕 从 Intel 的 网 站 下 载 )。 


92 SMP 结构 中 的 互 不 问题 


Intel 在 80386 的 设计 时 就 在 一 定 程度 上 考虑 到 了 SMP 结构 的 需要 。 后 来 ， 随 着 应 用 中 逐渐 增长 的 
需求 和 技术 的 发 展 ， 又 对 i386 系统 结构 逐步 作 了 加 强 ， 到 推出 Pentium 处 理 器 〈 更 确切 地 说 足 PO 系 
列 》 的 时 候 就 已 经 有 了 比较 完整 的 解决 方案 。 

先 看 i386 系列 的 处 理 器 ， 特 别 是 Pentium， 是 怎样 解决 SMP 结构 中 对 临界 资源 操作 的 原子 性 问题 
的 。 首 先 ， 单 纯 的 读 或 写本 来 就 是 原 了 上 的。 不 管 是 8 位 、16 位 ， 还 是 32 位 的 读 或 写 ， 都 只 归 一 个 内 存 
渎 / 写 微 操作 就 能 完成 ， 所 以 是 不 可 分 割 的 。 问 题 在 于 一 些 既 要 读 又 蓝 写 ， 因 而 需要 两 个 或 两 个 以 上 的 
微 操 作 才 能 完成 的 指令 ， 如 前 述 的 “ 读 一 改 一 写 ” 操 作 就 是 一 个 例子 。 对 于 这 样 的 指令 ，i386 CPU de 
供 了 在 指令 执行 期 间 对 总 线 加 锁 的 于 段 。CPU 芯片 上 有 -条 引线 LOCK， 如 果 汇 编 语 言 的 程序 中 在 
条 指令 前 面 如 上 前 缀 “LOCK”, 经 过 汇编 以 后 的 机 器 代码 就 使 CPU 在 执行 这 条 指令 的 时 候 把 引线 LOCK 
的 电位 拉 低 ， 从 而 把 总 线 锁 住 ， 这 样 同一 总 线 上 别 的 CPU 就 特 时 不 能 通过 总 线 访问 内 在 了 。 这 方面 还 
有 个 特例 , 就 是 在 执行 指令 xche 的 时 候 CPU 会 自动 将 总 线 锁 住 , 而 不 需 些 在 程序 中 使 用 前 织 “LOCK”。 
xchg 指令 将 “个 内 存单 元 中 的 内 容 与 一 个 寄存 器 的 内 容 对 换 ， 因 此 常常 用 于 对 内 核 信号 量 (Semephore) 
的 燥 作 。 显 然 ， 这 是 一 条 既 有 读 义 有 写 的 操作 指令 。 下 面 的 函数 spin_trylock( ) 就 是 一 个 使 用 xchg 的 实 
例 ， 取 自 include/asm-i386/spinlock.h: 


68 static inline int spin trylock(spinlock t *lock) 


69 { 

10 char oldval; 

7i | asm | volatile, ( 
12 ^xchgb %b0, %1” 
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73 ;^-q" (oldval), “=m” (lock->lock) 
74 ;"^0^ (0) : “memory”): 

75 return oldval > 0; 

76] 


XX BURR ERO, Bil oldva 先 设置 成 0， 然 后 与 操作 数 %1， 即 内 存单 元 lock-»lock 的 内 容 对 
换 。 如 果 lock->lock 的 内 容 片 来 就 是 0, 就 说 明 这 个 锁 lock 在 此 之 前 已 经 被 锁 上 了 , 所 以 spin. trylock() 
返回 0 友 示 加 锁 失 败 。 反 之 ， 如 果 lock->lock 的 内 容 原 米 非 0， 则 现在 变 成 了 0， 加 锁 就 成 功 了 ， 所 以 
spin trylock( [rl 1。 由 于 在 执行 xchg 指令 时 CPU 会 自动 锁 住 总 线 ， 所 以 不 需要 在 这 条 指令 前 面 如 前 
弘 “LOCK”。 再 看 对 这 个 函数 的 使 用 (kernel/softirg.c): 


244 spinlock t global bh lock = SPIN LOCK UNLOCKED; 


245 

246 static void bh_action (unsigned long nr) 
247 { 

248 int cpu = smp_processor_id( ); 

249 

250 if (!spin_trylock (&global bh lock)) 
251 goto resched; 

256 if (bh base[nr]) 

257 bh_base[nr] ( ) ; 

260 spin unlock(&global bh lock) : 

261 return; 


e e > 94 č co ‘ʻa 


265 resched: 
266 mark bh(nr); 
267 |] 


这 里 的 global bh lock 起 用 于 bh 函数 执行 机 制 的 锁 ，spinlock_t 数据 结构 的 定义 在 
include/asm-1386/spinlock.h 1: 


17 /* 

18 * Your basic SMP spinlocks, allowing only a single CPU anywhere 
19 */ 

20 

21 typedef struct { 

22 volatile unsigned int lock; 

23 #if SPINLOCK DEBUG 

24 unsigned magic; 

25 #endif 


26 ) spinlock t; 


从 250 行 的 spin. trylock( )# 260 行 的 spin unlock( ) 之 间 是 需要 保证 互 斥 、 且 人 在 同 一 时 间 中 只 人 允许 
一 个 CPU 在 里 面 执行 的 临界 区 。 所 以 ，CPU 在 进入 这 个 区 间 前 ， 先 要 通过 spin trylock( ) 加 锁 ， 而 
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global bh lock 的 初始 值 非 0。 如 果 spin_trylock( ) 的 返 思 值 为 0 就 表示 已 经 有 CPU 在 里 面 执行 了 ， 所 
以 就 跳 过 对 bh 函数 的 执行 而 转 到 resched 处 。 这 样 ， 利 用 xche 指令 的 原子 性 ， 就 实现 了 对 临界 资源 
global bh lock 操作 的 互 斥 性 ， 进 而 实现 了 整个 临界 区 中 操作 的 互 斥 性 。 

显然 ， 在 竞争 (或 者 说 抢夺 ) 临 界 资源 时 ， 只 有 系统 中 所 有 的 CPU 都 锯 实 是 在 对 同一 个 内 存单 元 执 
行 xchg 指令 才 有 意义 。 如 果 各 个 CPU 只 是 对 global bh lock 在 其 高 速 缓存 中 的 一 个 副本 执行 xchg 指 
令 ， 而 执行 的 结果 又 不 能 立即 为 其 他 CPU 所 见 ， 则 spin_trylock( ) 就 毫 万 作用 了 。 读 者 在 下 一 广 中 将 有 
Fij, Intel 在 Pentium 处 理 器 中 提供 了 一 种 称 为 snooping 的 机 制 ， 能 自动 维持 高 速 缓存 与 内 存 的 数据 一 
臻 性， 使 这 个 问题 对 于 软件 成 为 透明 。 省 划 ， 就 必须 把 global bh. lock 放 在 一 个 不 加 缓冲 的 区 问 中 。 

再 来 看 《计数 ) 信号 量 的 实现 ， 消 数 down( ) 的 代码 读者 以 前 看 到 过 了 ， 这 时 只 列 出 其 中 儿 行 供 读 
省 比较 和 领会 (include/asm-i386/semaphore.h): 


114 static inline void down(struct semaphore * scm) 
115 { 

120 asm | | volatile (人 

121 ^H atomic down operation\n\t” 

122 LOCK "decl %0\n\t” /* —-sem—>count */ 
123 “js 2f\n” 

129 :”=m” (sem->count) 

130 :”c” (sem) 

131 :^memory^) ; 

132 } 


这 里 使 sem->count 的 数值 减 1 的 操作 是 通过 dec 指令 完成 的 。 显 然 ， 这 条 指令 执行 的 也 是 “ 读 一 
改 一 号 ”操作 ， 为 了 保证 操作 的 原子 性 ， 在 指令 前 面 加 上 了 前 级 “LOCK ”。 


前 面 讲 过 ， 高 速 缓存 的 使 用 可 能 会 使 实际 的 内 存 操 作 改 变 次 序 。 从 访问 内 存 的 角度 看 ， 这 碌 使 得 
CPU 可 能 会 有 一 些 逻 辑 上 已 丝 完成 、 但 是 物理 上 尚未 实现 的 内 存 操作 。 在 SMP 结构 中 ， 这 种 次 序 的 改 
变 也 可 能 影响 到 CPU 间 的 同步 与 孔 斥 。 所 以 ， 击 要 有 一 种 手段 ， 使 得 在 菏 些 操作 之 前 把 这 种 “大 下 ” 
的 内 存 操作 全 都 最 终 地 、 物 理 地 完成 ， 史 好 像 把 从 下 的 债 部 结 消 ， 然 后 再 开始 新 的 《通常 十 比较 竺 上 
的 ) 活动 一 样 。 这 种 于 段 称 为 “内 存 路 障 ”(memory barrier) XF SMP £F RESP. Intel 在 
Pentium 处 理 咒 中 通过 多 种 方式 提供 内 存 路 障 : 
(1) 凡是 对 系统 总 线 如 锁 的 操作 者 起 着 内 存 路 障 的 作用 。 所 以 , 人 在 down( ) 中 的 dec 指令 就 是 个 
ATERBE, CPU 在 执行 这 条 指令 之 前 会 门 动 批 山 经 写 入 高 速 缓 存 、 伺 是 尚 术 最 终 写 回 内 存 的 
内 容 先 冲刷 出 去 。 

(2) 一 些 特殊 的 指令 和 操作 起 着 内 存 路 障 的 作用 .这样 的 指令 有 iret. cpuid、 sfence， 以 及 以 控 
制 寄 存 器 或 程序 调试 寄存 器 为 口 标的 mov 指令 , 还 有 对 GDTR. LDTR, IDTR ^59 EARR 
入 操作 和 对 高 速 缓存 的 控制 操作 。 这 里 特别 值得 所 的 是 指令 cpuid， 我 们 有 时 候 会 让 汇编 
RE rp £r EME SPEARS RICAN cpuid 指令 ， 那 其 实 就 十 起 着 路 障 的 作用 。 

为 了 编 当 程序 的 方便 ， 内 核 的 代 但 中 定义 了 儿 个 用 作 路 障 的 宏 操 作 ， 上 有 具体 有 mb( )、rmb( ) 以 及 
wmb( )， 均 定义 十 include/asm-i386/system.h A. Xf T Intel 结构 的 CPU， 如 Pentium，rmb( ) 实 际 土 就 
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是 mb( )。 

257 /* 

258 * Force strict CPU ordering. 

259 * And yes, this is required on UP too when we're talking 

260 * to devices. 

261 * 

262 * For now, "wmb( )" doesn't actually do anything, as all 

263 * Intel CPU s follow what Intel calls a *Processor Order*, 
264 * in which all writes are seen in the program order even 

265 * outside the CPU. 

266 * 

267 * I expect future Intel CPUs to have a weaker ordering, 

268 * but I'd also expect them to finally get their act together 
269 * and add some real memory barriers if so. 

270 * 

211 * The Pentium III docs add a real memory barrier with the 
272 * sfence instruction, so we use that where appropriate. 

273 */ 

274 Hifndef CONFIG X86 XMM 

275 Hdefine mb( ) asm. | volatile | V("lock; addl $0,0(%%esp)”: : :”memory”) 
276 Helse 

277 #define mb( ) asm volatile | (“sfence”: : :"memory^) 


278 fendif 
279  #define rmb( ) mb( ) 
280 #define wnb( ) asm volatile | (^: : ;^memory^) 


这 里 的 指令 sfence BA “AGES BH” (storage fence), MEACHAM zb Yet]. 5 cpuid THEE, 
sfence 没有 任何 副作用 ， 而 cpuid 则 会 改变 weas 等 寄存 器 的 内 容 。 但 是 ， 并 不 是 所 有 的 Pentium CPU 
都 提供 sfence 指令 , 所 以 对 不 提供 这 条 指令 的 CPU 就 通过 一 条 带 前缀 LOCK 的 指令 来 实现 , (ARNE 
不 产生 任何 副作用 ， 所 以 把 下 在 堆栈 顶部 的 那个 数据 作为 操作 对 象 ， 在 它 上 和 面 加 .上 0。 全 于 wmb( )， 
代 但 的 作者 在 注释 中 说 日 前 Intel 的 CPU 对 写 操作 自动 地 保证 “处 理 器 序 ”， 所 以 并 个 需 上 里 做 什么 事 。 
HE ARORA VERA, BEALE gcc 在 编 详 时 不 会 试图 跨 过 这 些 函 数 进行 优化 。 

下 面 是 一 个 在 程序 中 调用 消 数 mb( ) 设 置 内 存 路 障 的 实例 ， 取 自 kernel/softirq.c。 


269 void init bh(int nr, void (*routine) (void)) 


270 { 
271 bh base[nr] = routine; 
272 mb( ); 
org 
这 里 的 上 月 的 显然 是 要 使 由 当前 CPU 为 某 个 软 中 断 设 置 的 bh 函数 立即 为 系统 中 其 他 CPU Si, 其 
作用 与 冲刷 TLB 相似 。 


所 以 ， 对 于 现代 的 CPU， 不 同 处 理 器 对 临界 资源 操作 的 鼠 斥 性 和 次 序 的 正确 性 主要 起 靠 倪 件 解决 
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的 ， 软 件 只 起 着 辅助 的 作用 。 
顺便 提 -下 ， 前 面 bh_action( ) 的 代码 中 引用 了 一 个 inline 函数 smp_processor_id()， 目 的 是 此 知道 
当前 进程 在 哪 一 个 CPU 上 运行 ， 与 此 相似 的 还 有 个 hard smp processor id( ), 4E X + 
include/asm-i386/smp.h 内 : 


iz /* 

73 * This function is needed by all SMP systems. It must _always_ be valid 
74 * from the initial startup. We map APIC BASE very early in page setup( ), 
75 * so this is correct in the x86 case. 

76 */ 

77 

78 #define smp processor id( ) (current->processor) 

79 

80 extern __ inline int hard smp processor. id (void) 

81 { 

82 /* we don't want to mark this access volatile - bad code generation */ 
83 return GET APIC_1D(*(unsigned long *) (APIC_BASE+APIC_ID)) ; 

8S4  ] 


每 当 一 个 CPU 调度 一 个 进程 运行 时 ， 都 把 自己 的 逻辑 序号 设置 在 该 进程 的 task_struct 结构 中 的 
processor 字段 中 。 这 个 序号 从 哪儿 来 呢 ? 很 简单 , 米 莫 调度 之 前 原来 在 这 个 CPU 上 运行 的 进程 。 那么 ， 
第 一 个 在 此 CPU 上 运行 的 进程 (空转 进程 ) 又 从 哪里 取得 这 个 序号 呢 ? 对 才 主 CPU， 这 个 序 写 是 0， 而 
次 CPU 的 序号 则 取决 于 让 CPU 启动 它们 运行 的 先后 。 至 于 hard_smp_processor_id( )， 则 从 本 地 APIC 
mu db y I . 

在 单 CPU 系统 中 这 两 个 前 数 都 问 定 返回 0。 


9.3 ”高速 缓存 与 内 存 的 一 致 性 


本 章 第 一 节 中 讲 到 的 第 二 个 问题 是 各 个 CPU 私有 的 、 局 部 的 高 速 缓存 与 公共 的 、 全 局 的 内 存 如 何 
同步 的 问题 。 

对 填 高 速 缓存 中 的 第 一 部 分 ， 实 际 上 一 般 只 有 数据 才 有 - : 致 性 的 问题 ， 因 为 对 指令 一 般 都 是 只 读 ， 
而 并 不 在 运行 的 过 程 中 动态 地 加 以 改变 。Jntel Æ Pentum CPU 中 为 已 经 装 入 高 速 绥 存 的 数据 提供 了 一 
Ab A BSW RE ONL, PRY “BEER” (snooping). RES CPU 内 部 都 有 一 部 分 专门 的 便 件 ， 一 
Bm HET e ECU RIN AAS RARE LATER IE. PARE ERAN RS 
线 ， 所 以 没有 -一 次 实际 访问 内 存 的 操作 是 能 够 逃 过 其 临 视 的 。 如 果 发 现 有 来 自 其 他 CPU 的 写 操作 ， 而 
本 CPU 的 高 速 缓 存 中 又 缓冲 存储 着 该 次 写 操作 的 月 标 ， 就 会 自动 把 相应 的 缓冲 线 废弃 ， 使 得 在 需要 用 
到 这 些 数据 时 重新 将 其 装 入 高 速 缓存 ， 以 此 达到 二 者 的 一 致 。 这 样 一 来 ，SMP 结构 中 高 速 缓存 与 内 存 
的 数据 一 致 性 问题 对 于 软件 而 言 就 是 透明 的 了 。 显 然 ， 这 种 机 制 大 大 地 简化 了 软件 的 设计 与 实现 。 读 
者 可 以 回顾 一 下 SMP 结构 中 对 临界 资源 加 锁 ( 见 第 4 章 ) 的 过 程 。 如 果 没有 这 种 自动 保持 NLA, 
就 必须 把 所 有 用 于 spinlock 的 变量 全 都 放 在 一 个 不 加 缓冲 的 区 间 ， 否 则 各 个 CPU 所 测试 和 改变 的 可 能 
内 是 自己 高 速 缓存 中 的 内 容 ， 而 根本 起 不 到 spiniock 的 作用 。 

对 于 高 速 缓存 中 的 TLB 部 分 ， 问 题 便 有 所 不 同 。 这 个 问题 可 以 通过 IPI、 即 “处 理 器 间 中 断 ” 来 
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解决 。 每 当 一 个 CPU 改变 了 内 存 中 某 个 页 面 映 射 晶 录 或 页 面 映 身 表 的 内 容 ， 从 而 可 能 引起 其 他 CPU 
的 TLB 与 此 不 一 致 时 ， 就 向 系统 中 正在 使 用 这 个 映射 表 的 CPU 发 出 一 个 中 断 请 求 ， 请 它们 废弃 各 由 
TEB 中 的 内 容 。 后 而 读者 将 会 看 到 ， 人 在 i386 SMP 结构 中 采用 的 是 “高 级 可 编 各 中 断 控 制 器 ”APIC， 
在 APIC PẸ AEN Po -种 中 断 请 求 , RFA EA INVALIDATE_TLB_VECTOR。 妆 一 个 CPU 
收 到 这 种 中 断 请 求 时 ， 就 会 在 相应 的 中 断 服 务 程序 中 将 其 TLB 中 的 部 分 或 企 部 内 容 作废 (Invalidate)。 
TLB 中 的 内 容 作 废 以 后 ， 就 会 在 需要 用 到 这 些 内 容 时 自动 重新 装 入 ， 这 样 就 保证 了 内 容 的 一 致 性 。 间 
时 ， 内 核 中 还 提供 了 一 个 通用 的 也 数 send. IPL mask( )， 当 一 个 CPU 需要 向 其 他 CPU 发 出 某 种 中 断 请 
求 时 ， 就 可 以 用 相应 的 中 断 间 量 为 参数 调用 这 个 螂 数 来 完成 。 对 寺 INVALIDATE_TLB_VECTOR FH, 
内 核 还 在 send_IPI_mask( ) 的 基础 上 提供 了 个 函数 flush_tlb_others( )。 当 一 个 CPU HR Hift CPU JE 
ARA TLB 中 的 内 容 时 ， 就 可 以 调用 flush_tlb_others( ) 达 到 “冲刷 其 他 (进程 的 )TLB” 的 日 的 。 注 意 这 
里 所 谓 “ 冲 删 ” 实 际 上 是 废弃 。 

我 们 通过 一 个 实例 来 看 对 flush. tlb, others( ) 的 调用 。 在 第 2 章 中 ， 壮 者 看 到 过 内 核 线程 kswapd( ) 
通过 try_to_swap_out( ) 试 图 换 出 某 个 进程 的 一 个 页 面 的 过 程 。 在 函数 try_to_swap_out( ) 中 , 先 对 给 定 表 
项 所 有 映射 的 内 存 页 面 进行 了 种 种 检查 。 如 果 决 定 要 断 井 这 个 页 面 的 映射 ， 就 先 把 这 个 表 项 清 成 0， 然 后 
再 根据 其 体 的 情况 决定 是 否 需要 将 这 个 表 项 设置 成 指向 枢 上 的 页 面 映 象 。 下面 是 这 个 函数 中 的 一 个 片 
lit (mam/vmscan.c) » 





[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap, out( ) > swap out mm( ) > 
swap. out. vma( ) > swap out pgd( ) > swap out pmd( ) > try to swap out( )] 


38 static int try to swap out(struct mm struct * mm, struct vm area struct* vma, 
unsigned long address, pte t * page table, int gfp mask) 

39 { 

78 /* From this point on, the odds are that we're going to 

79 * nuke this pte, so read and clear the pte. This hook 

80 * is needed on CPUs which update the accessed and dirty 

81 * bits in hardware. 

82 */ 

83 pte = ptep get and clear(page table); 

84 flush tlb page(vma, address); 

157. i 


这 里 的 83 行 通过 ptep get and clear( ) 将 指针 page table FTTH RIMM 0, fem iH 
flush, tlb. page( ) 证 刷 CPU 的 高 速 缓存 。 这 里 要 说 明 : kswapd( ) 是 个 内 核 线 程 , 正在 其 一 个 CPU 上 运行 ， 
而 止 在 处 理 中 的 页 出 表 却 通常 是 属 丁 另 一 个 进程 的 ， 那 个 进程 有 可 能 下 在 男 一 个 CPU istr., wE 
副 样 ， 则 它 的 贞 面 表 很 可 能 已 被 装 入 那个 CPU 的 筷 速 缓存 中 。 所 以 ， 此 时 要 向 正在 运行 着 日 标 进程 的 
CPU 发 送 一 个 INVALIDATE_TLB_VECTOR 中 断 请 求 , ibe RFR GRRE PHA Ree RAGA 
改变 了 的 页 面 映射 表 。 这 是 由 flush tib page( ) 完 成 的 ， 其 代码 在 arch/i386/kernel/smp.c +: 


[kswapd( ) > do try. to. free pages( ) > refill inactive ( ) > swap. out( ) > swap. out mm( )» swap out, vma( ) 
> swap. out pgd( ) > swap. out. pmd( ) > try, to swap, out( ) > flush tlb page( )] 
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372 void flush_tlb_page (struct vm_area_struct * vma, unsigned long va) 
373 { 

374 struct mm struct *mm = vma-»vm mm; 

375 unsigned long cpu mask = mm-»cpu vm mask & "(1 << smp processor id( )); 
376 

377 if (current->active mm == mm) { 

378 if(current >mm) 

379 |. flush tlb one(va); 

380 else 

381 leave mm(smp processor id( )); 

382 } 

383 

384 if (cpu mask) 

385 flush tib others(cpu mask, mm, va); 

386 } 


读者 应 该 还 记得 ， 进 程 的 虚 存 空间 是 由 一 个 mm, struct 数据 结构 代表 的 。 和 在 mm_struct 数据 结构 中 
有 个 学 段 cpu_vm_mask， 这 是 个 位 图 ， 表 示 有 哪 一 些 CPU 正在 使 用 这 个 空间 。 系 统 中 的 全 个 CPU 
都 对 应 着 这 个 位 图 中 的 一 位 ， 如 果 是 单 CPU 系统 则 只 有 bito 有 意义 。 当 :个 CPU 在 进程 调皮 中 从 C 
个 老 进程 切换 到 一 个 新 进程 的 时 候 ， 就 要 修改 这 两 个 进程 所 使 用 的 mm_struct 数据 结构 中 的 位 图 ， 在 
新 进程 的 mm_struct 结构 中 把 相应 的 标志 位 设置 成 1， 而 老 进 称 的 mm, struct 结构 中 则 把 相应 的 标志 位 
设置 成 0〈 详 见 switch mm( ) 的 代码 )。 每 个 CPU 都 可 以 通过 一 个 画 数 smp_processor_id( ) 取 得 其 在 系 
统 中 的 编号 ， 这 就 决定 了 它 在 位 图 中 的 位 置 。 以 前 ， 我 们 在 第 4 章 中 阅读 switch. mm( ) 的 代码 时 有 意 
忽略 了 这 个 细节 ， 现 在 读者 可 以 回 过 去 看 一 上 人。 上 面 的 375 行 把 正在 处 理 的 mm struct 结构 中 的 位 图 
HYPE St cpu mask 中 ， 但 是 将 正在 执行 这 个 也 数 的 CPU 本 身 除 外 。 这 样 ， 如 果 cpu mask 为 非 0 就 说 
明 系 统 中 全 少 还 有 一 个 CPU 正在 过 行使 用 这 个 mm_struct 结构 的 进程 ， 从 而 止 在 使 用 相应 的 页 面 表 ， 
所 以 娄 进 一 步调 用 flush_tlb_others( )。 至 于 代码 中 的 377 一 382 行 ， 那 只 是 在 当前 进程 ， 就 是 正在 当前 
CPU 上 这 行 的 进程 ， 恰 好 也 与 日 标 mm, struct 结构 有 关 的 时 候 才 执行 ， 我 们 在 这 时 对 此 并 不 关心 。 盟 
数 flush_tlb_others( ) 的 代码 在 arch/i386/kernel/smp.c '1!: 


»swap out pgd( ) > swap_out_pmd( ) > try to swap out( ) > flush_tlb_page( ) > flush_tlb_others( )] 


[kswapd( ) » do to free pages( )» refill inactive ( ) > swap. out( ) > swap out mmí( ) > swap out vmaí( ) 


304 static void flush tlb others (unsigned long cpumask, struct mm struct mm, 
305 unsigned long va) 

306 { 

307 /* 

308 * A couple of (to be removed) sanity checks: 
309 * 

310 * — we do not send IPIs to not-yet booted CPUs. 
311 * — current CPU must not be in mask 

312 * ~ mask must exist :) 

313 */ 

314 if (!cpumask) 

315 BUG( ) ; 
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内 核 中 有 个 全 局 量 cpu_online_map， 这 也 是 个 位 图 ， 记 录 着 系统 中 所 有 的 CPU (最 多 32 个 ), 参 
数 cpumask 的 内 容 只 能 是 cpu_online_map 的 一 个 子 集 , FFA ABE E435 SBT CPU 本 喘 。 此外, flush mm. 
flush_va 以 及 flush_cpumask 都 是 全 局 量 , 用 来 作为 IPI 的 辅助 手段 。 由 于 是 全 局 量 , 系统 中 所 有 的 CPU 
都 能 看 到 这 些 变量 。 同 时 , 对 这 些 全 局 量 的 改变 必须 互 斥 。 接 着 就 是 通过 send_IPI_mask( ) 向 有 关 的 CPU 
发 送 一 个 INVALIDATE_TLB_VECTOR 中 断 请 求 ， 发 送 以 后 要 等 待 位 图 flush_cpumask 变 成 全 0， 表 示 
所 有 的 目标 CPU 都 已 经 响应 了 这 次 中 断 请 求 。 我 们 把 具体 发 送 中 断 请 求 的 过 程 留 到 下 一 节 ， 这 里 先 看 
看 日 标 CPU 在 接收 到 这 个 中 斯 请 求 以 后 王 些 什么 。 读 者 将 会 看 到 , 与 INVALIDATE TLB. VECTOR 相 


} 
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if ((cpumask & cpu online map) != cpumask) 
BUG( ) ; 

if (cpumask & (1 << smp processor id( ))) 
BUG( ) ; 

if (!mm) 
BUG( ) ; 


/* 

* i m not happy about this global shared spinlock in the 
* MM hot path, but we'll see how contended it is. 

* Temporarily this turns IRQs off, so that lockups are 

* detected by the NMI watchdog. 

来 / l 

spin lock (&tlbstate lock); 


flush_mm = mm; 

flush_va = va; 

atomic set mask(cpumask, &flush cpumask); 

/* 

* We have to send the IPI only to 

* CPUs affected. 

*/ 

send IPI mask(cpumask, INVALIDATE TLB VECTOR) ; 


while (flush cpumask) 
/* nothing. lockup detection does not belong here */; 


flush mm = NULL; 
flush va = 0; 
spin unlock(&tlbstate lock); 


II 


对 应 的 中 斯 响应 程序 是 smp_invalidate_interrupt( )， 其 代码 也 在 smp.c FP: 


269 
270 
271 
272 
273 


- 618 . 


/* 


* 
* 
* 
* 


TLB flush IPT: 


1) Flush the tib entries if the cpu uses the mm that's being flushed. 


2) Leave the mm if we are in the lazy tlb mode. 


BOM BAN SMP 系统 结构 


274 */ 

275 

276 asmlinkage void smp invalidate interrupt (void) 

277 | 

278 unsigned long cpu = smp_processor_id( ); 

279 

280 if (!test bit(cpu, &flush cpumask)) 

281 return; 

282 /* 

283 * This was a BUG( ) but until someone can quote me the 
284 * line from the intel manual that guarantees an IPI to 
285 * multiple CPUs is retried only, on the erroring CPUs 
286 * its staying as a return 

287 * 

288 * BUG( ) ; 

289 */ 

290 

291 if (flush mm == cpu tlbstate[cpu].active mm) | 

292 if (cpu tlbstate[cpu]. state == TLBSTATE OK) | 

293 if (flush va == FLUSH ALL) 

294 local flush tlb( }; 

295 else 

296 . flush tlb one(flush va); 

297 } else 

298 leave mm(cpu); 

299 } 

300 ack APIC irq( ) ; 

301 clear bit(cpu, &flush cpumask); 

302  ] 


内 核 中 有 个 全 局 的 tlb_state 数据 结构 数组 cpu. tlbstate[ ], XF smp.c: 
106 struct tlb state cpu tlbstate[NR CPUS] = ([0 ... NR_CPUS-1] = { &init mm, 0 }}; 
其 类 型 定义 在 include/asm-i386/pgalloc.h 中 : 


214 Hdefine TLBSTATE OK 1 
215 #define TLBSTATE LAZY 2 


216 

217 struct tlb state 

218 { 

219 struct mm struct *active mm; 
220 int state; 

221 33 


数组 cpu. tlbstate[ ] 中 所 有 元 素 的 初 值 都 是 { &init mm, 0}, 106 行 中 的 这 种 表示 方法 也 十 gcc XTC 
语言 的 -种 扩充 。 每 个 CPU 在 这 个 数组 中 都 有 db state 结构 。 在 switch_mm( ) 中 ， 每 当 一 个 CPU 
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要 切换 到 一 个 进程 的 虚 存 空间 时 ， 就 把 这 个 结构 中 的 指针 active mm 设置 成 指向 新 的 mm. struct 结构 ， 
表 小 这 个 CPU 正在 使 用 这 个 虚 存 空间 ， 并 且 把 状态 state 设置 成 TLBSTATE_OK， 实 际 上 是 1。 在 一 般 
的 情况 下 ， 个 CPU 的 TLB 状态 总 是 TLBSTATE_OK， 表 示 如 果 正 在 使 用 中 的 页 面目 录 或 页 面 表 内 
容 发 生 了 变化 就 要 刷新 TLB 的 内 容 。 

但 是 ， 是 省 只 要 负面 且 录 或 页 面 表 内 容 发 生 了 变化 就 一 定 此 刷新 TLB 的 内 容 呢 ? MAR E. M 
果 有 把 握 地 知道 可 能 发 生 的 变化 绝 不 会 影响 CPU 的 运行 ， 就 没有 这 个 必要 。 我 们 不 妨 这 样 想 ， 内 核 中 
代码 所 点 的 页 面 是 不 会 改 灾 的 ， 其 他 的 页 面 也 没有 换 入 / 换 出 的 问题 ， 而 内 核 线程 又 没有 用 户 空间 ， 所 
以 与 页 面 的 换 入 / 换 出 无 关 , SESE E, 内 核 中 可 能 改变 页 面 映射 的 只 有 儿 种 情况 ， -种 与 vmalloc( ) 有 关 ， 
Fi — Ae Gj HIGHMEM 的 映射 有 有关 ， 还 有 就 是 与 外 设 总 线 (如 PCI 总 线 ) 有 关 的 映射 。 内 此 ， 内 要 一 个 内 
核 线程 与 这 些 操 作 无 关 ， 那 么 这 个 内 核 线程 就 可 以 “ 任 任 风浪 起 ， 稳 举 和 钓鱼 船 "。 所 以 ， 在 etd 
fave P, CPU 明 然 还 华 使 用 属 十 某 个 虑 拟 空 间 的 页 而 日 录 或 页 面 表 ， 亿 是 即使 这 些 页 面目 六 或 页 耐 表 
发 生 了 变化 也 没有 必要 刷新 TLB 的 内 容 。 例 如 ， 在 执行 系统 调用 exit( ) 的 过 程 中 ， 即 使 当前 进程 的 页 
向 日 录 或 幢 面 表 发 生 了 变化 ， 也 己 经 没有 必 此 史 新 TLB 的 内 容 了 。 还 有 - -种 情况 是 ， 当 CPU 切换 到 
一 个 不 具有 用 户 空间 的 内 核 线程 时 ， 要 借用 在 它 之 前 运行 的 那个 进程 的 active mm ( 详 见 “进程 的 调度 
与 切换 ”)， 所 以 此 时 进程 切换 了 ， 但 是 页 面 自 录 利 页 面 表 却 没 有 切换 。 然 而 ， 在 运行 这 个 内 核 线程 的 
期 间 ， 凤 使 用 户 空间 的 页 面 晶 录 或 负面 表 发 生 了 变化 也 没有 必要 更 新 TLB 的 内 容 ， 央 为 内 核 线程 本 来 
跷 没有 用 广 空间 。 硅 这 样 的 情况 下 ， 就 通过 个 inline eS XE enter_lazy_tlb(), 将 当前 CPU 的 TLB 状态 
设置 成 TLBSTATE_LAZY， 表 示 懒 得 殉 新 。 这 个 函数 的 代码 在 include/asm-i386/mmu_context.h F: 








17 static inline void enter lazy tlb(struct mm struct mm, 
struct task struct *tsk, unsigned cpu) 


18 1 

19 if(cpu tlbstate[cpu]. state -= TLBSTATE OK) 
20 cpu tlbstate[cpu]. state - TLBSTATE LAZY; 
21 } 


VITAE TP ER BCU EAA, Mb aE (E exit mmy Ds. Sfr “处 是 在 schedule( ) 中 ， 其 他 是 
CEASA BC, AIST BEAT E ARERR 

^j TLB AM CERERA) 可 以 是 针对 整个 TLB 的 ， 也 可以 是 针对 … :个 具体 页 面 的 。 对 整个 
TLB 的 冲刷 由 local flush db( ) 进 行 ， 这 是 个 宏 操作 ， 定 义 丁 include/asm-i386/pgalloc.h 中 : 


199 define local flush tlb( ) \ 
200 flush tlb( ) 


PAS flush db( ) 又 是 个 宏 操作 ， 其 定义 也 在 间 文件 中 : 


37  #define | flush tlb( ) 

38 do 1 \ 

39 unsigned int tmpreg: \ 

40 \ 

41 . asm volatile ( \ 

42 "movl %%er3, %0; # flush TLB W^ X 
43 “movl X0, 99Wcr3; \n” \ 
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44 . “=r” (tmpreg) \ 
45 : “memory” ) ， \ 
46 } while (0) 


Ji pe FR TLB 的 内 容 很 简单 ,只 要 把 指向 映射 日 录 的 指针 ,， 即 控制 寄存 器 %er3 EIRAS DUM 
可 以 了 。 所 以 这 里 把 %cr3 中 的 内 容 先 读 到 临时 变量 tmpreg 中 ， 然 后 青 把 它 写 四 %cr3 就 成 了 。 虽 然 这 
个 操作 的 前 后 %cr3 的 内 容 并 无 改变 ， 但 是 对 %er3 的 写 操作 本 颖 就 起 到 了 废弃 整个 TLB 的 内 容 ， 从 新 
eA TIA EL RIES 

BERHAUT IMIR, XE EER E__flush_tlb_one( ) 完 成 的 ， 定 义 十 问 一 文件 中 : 


87 Hdefine . flush tlb one (addr) ^ 
88 asm volatile  ('invlpg %0”: :"m^ (*(char *) addr)) 


指令 invlpg 将 TLB *EJR-F-ZrE RMA ARH. TLB 是 按 32 字 节 “ 缓 冲 线 ” 米 缓冲 的 ， 所 以 给 
定 贞 面 的 内 容 未 必 全 部 在 TLB 小， 在 TLB 中 的 内 容 也 未 必 连 续 。 这 条 指令 的 作用 就 是 把 TLB 中 凡是 
属于 给 定 页 面 的 内 容 全 都 废 佐 。 

如 果 CPU 当前 的 TLB 状态 是 TLBSTATE_LAZY, Bia THE “AH”, iii leave_mm( ) 退 出 
当前 mm struct 结构 小 的 位 图 cpu. vm mask. 以 后 再 有 类 似 的 改变 就 不 会 向 这 个 CPU 发 出 中 断 请 求 了 。 
这 个 函数 的 代 人 在 arch\i386\kernel\smp.c 中 : 


[smp_invalidate_interrupt( ) > leave_mm( )] 


219 /* 

220 * We cannot call mmdrop( ) because we are in interrupt context, 
221 * instead update mm->cpu_vm_mask. 

222 */ 

223 static void inline leave mm (unsigned long cpu) 

224 { 

225 if (cpu tlbstate[cpu]. state == TLBSTATE OK) 

226 BUG( ) ; 

221 clear bit(cpu, &cpu tlbstatelcpu]. active mm-^epu vm mask); 
228 ) 


所 以 ， 如 果 当 前 CPU 的 tb. state 数据 结构 中 的 指针 指向 某 个 mm struct 结构 ， 而 这 个 结构 内 的 位 
图 cpu. vm mask 又 不 包括 当前 CPU， 那 就 说 明 这 个 CPU 的 TLB 实际 上 已 经 不 一 致 了 ， 只 个 过 因为 当 
前 进程 是 内 核 线程 ， 这 种 不 一 致 不 会 引起 什么 后 果 而 己 。 到 下 -次 进程 调度 的 时 候 ， 如 果 旧 切换 到 
个 使 用 着 个 同 页 面 月 录 的 进程 ， 就 会 看 切换 时 装 入 新 的 页 面 昌 录 ， 江 且 扎 当前 CPU 的 TLB 状态 义 改 
为 TLBSTATE OK， 这样 ， 事 情 就 偷懒 过 去 了 。 但 是 ， 旭 果 新 的 进程 使 用 的 恰好 就 是 这 个 内 核 线 秆 所 
借用 的 mm. struct 结构 呢 ? 在 单 CPU 结构 的 系统 中 此 时 不 用 做 任何 事 , 因为 不 需要 切换 虚 仔 空间 , TLB 
小 的 内 容 又 肯定 是 BU. WE SMP 结构 的 系统 小 ， 这 时 候 就 要 检查 一 上 人 了 ， 如 果 发 后 了 上 述 的 悟 次 
就 得 补 上 一 次 TLB 刷新 ， 因 为 页 面 口 菏 或 抽 面 表 中 已 经 发 生 的 变化 对 即将 运行 的 进程 是 有 影响 的 。 下 
面 是 inline 函数 switch_mm( ) 中 的 :个 片段 ， 在 include/asm-i386/mmu_context.h HP: 


28 static inline void switch mm(struct mm struct *prev, 
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struct mm struct *next, struct task_struct *tsk, unsigned cpu) 


29 | 

30 if (prev != next) | 

45 ) 

46 #ifdef CONFIG SMP 

4T else { 

48 cpu tlbstatelcpu].state = TLBSTATE OK; 

49 if (cpu_tlbstate[cpu]. active mm != next) 

50 BUG( ) ; 

51 if(!test and set bit(cpu, &next-^cpu vm mask)) { 

52 /* We were in lazy tlb mode and leave mm disabled 
Dd * tlb flush IPI delivery. We must flush our tlb. 
54 */ 

55 local flush tlb( ); 

56 } 

57 } 

58 Hendif 

59} 


读者 不 妨 同 到 第 4 BH, TAT AE MAXI. 

BIF] smp_invalidate_interrupt( ) 的 代码 中 。 最 后 ， 通 过 ack_APIC_irq( ) 向 APIC 发 出 一 个 确认 ， 然 
后 把 当前 CPU 在 位 图 flush_cpumask 中 的 对 应 位 清 0, 使 发 出 中 断 请 求 的 CPU 能 知道 当前 CPU BAA 
FT TLB 中 的 内 容 。 另 一 方面 ， 发 出 中 断 请 求 的 CPU 此 时 正在 flush_tlb_others( ) 中 通过 一 个 while t 
坏 等 待 位 图 flush_cpumask 变 成 全 0， 当 所 有 的 目标 CPU 都 完成 了 中 断 服务 时 ，flush_tb_others Offi 
行 也 就 完成 了 。 

我 们 在 前 面 flush_tlb_page( ) 的 代码 中 跳 过 了 对 本 地 TLB 的 “冲刷 ”但 是 从 代码 中 可 以 看 出 ， 具 
体 的 处 理 同样 也 是 由 __flush_tlb( ) 或 leave_mm( ) 完 成 的 。 

在 try_to_swap_out( ) 中 之 所 以 调 几 flush tlb page( )， 是 因为 要 改变 了 -个 页 面 映射 表 的 内 容 ， 而 
一 个 页 面 耿 射 表 正 好 占 一 个 页 面 ， 所 以 只 要 废弃 TLB 中 属于 这 个 页 面 的 内 容 就 可 以 了 。 可 是 ， 如 果 改 
变 的 是 页 面 峡 身 目录 的 内 容 呢 ?虽然 页 面 映 射 目录 也 占 一 个 页 面 ， 但 是 映射 目录 的 改变 意味 着 整个 映 
射 的 改变 ， 因 为 自 东 中 的 每 一 项 都 指向 一 个 页 面 映 射 表 。 所 以 ， 仅 仅 废弃 映射 目录 所 在 的 页 而 是 不 够 
的 ， 此 时 需要 废弃 的 是 TLB 中 的 全 部 内 容 。 为 了 这 个 目的 ， 内 核 中 还 有 个 函数 flush_tlb_mm( )， 用 来 
RARA TLB 的 内 容 ， 其 代码 在 arch/i386/kernel/smp.c H: 





358 void flush tlb mm (struct mm struct * mm) 


359 { 

360 unsigned long cpu mask = mm-^»cpu vm mask & "(1 << smp processor id( )); 
361 

362 if (current-^»active mm == mm) | 

363 if (current-^mm) 

364 local flush tlb(); 

365 else 

366 leave mm(smp processor id( )); 

367 } 
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368 if (cpu mask) 
369 flush tlb others(cpu mask, mm, FLUSH ALL); 
370 ] 


代码 中 的 local_flush_tlb( ) 实 际 上 就 是 __flush_tlb( )， 定 义 于 include/asm-i386/pgalloc.h: 


199 #define local flush tlb( ) \ 
200 . flush tlb( ) 


将 flush tib mm( )5j flush tib. page( ) 作 一 比较 ， 就 可 以 发 现 二 者 基本 上 是 相同 的 ， 只 是 调 放 
flush_tlb_others( ) 时 的 一 个 参数 为 FLUSH_ALL， 而 不 是 具体 的 地 址 。 前 面 我 们 已 经 看 到 ， 当 参数 为 
FLUSH ALL 时 各 个 CPU 都 通过 __flush_tlb( ) 重 新 装 入 控制 寄存 器 %cer3， 这 就 起 到 了 废弃 TLB 中 全 党 
内 容 ， 然 后 随 着 运行 的 需要 重新 装 入 的 日 的 。 


9.4 SMP 结构 中 的 中 断 机 制 


传统 的 1386 处 理 器 都 采 川 8259A 中 断 控 制 器 ， 读 者 在 第 3 章 看 到 过 对 这 种 喘 件 的 初始 化 。 一 般 而 
言 , 8259A 的 作用 是 提供 多 个 外 部 小 源源 与 单一 CPU 之 间 的 连接 。 如 果 在 SMP 结构 中 还 是 采用 8259A 
中 断 控 制 器 ， 那 就 只 能 静态 地 把 所 有 的 外 部 中 断 源 划分 成 艺 干 组 ， 分 间 把 每 一 组 者 连接 到 一 个 8259A， 
而 8259A 则 与 CPU 有 一 对 一 的 连接 。 然 而 这 样 ， 就 达 不 到 动态 地 分 由 中断 请 求 的 日 的 ， 也 使 价 件 的 设 
计 变 得 很 不 简洁。 因此 ，Intel 为 Pentiun 处 理 器 设计 了 一 种 中 为 通用 的 中 断 控 制 器 ， 称 为 “高 级 可 纺 程 
HEFER” (Advanced Programable Interrupt Controllor)， 缩 写成 APIC。 另 一 方面 ， 考 虑 到 “处 理 铝 间 
中 汤 请 求 ” 的 需要 ， 每 个 CPU 实际 上 都 需 昌 有 个 本 地 的 APIC， 因 为 ”个 CPU 常常 间 有 日 标 地 向 系统 
中 的 其 他 CPU 发 出 中 断 请 求 , 所 以 ， 从 Pentium 开始 ，Intel 就 在 CPU 芯片 内 部 集成 了 一 个 本 地 APIC. 
但 是 ， 在 SMP 结构 中 还 需要 -个 外 部 的 、 全 局 的 APIC， 从 而 形成 如 图 9.2 所 示 的 结构 。 

一 般 而 言 ， 集 成 在 CPU LS HA aba A36 APIC 与 外 部 的 WO APIC 是 配合 使 用 的 ， 实际 上 可 以 认为 
是 将 个 器 件 分 成 了 鸯 部 分 , 既 可 以 用 于 SMP 结构 , 也 可 以 用 十 单 CPU 结构 ,为 方向 , 在 本 地 APIC 
中 有 个 可 以 用 于 时 钟 中 断 源 的 定时 器 ， 所 以 即使 没有 WO APIC 的 配合 ， 也 可 以 选择 使 用 本 地 APIC, 
MH, MERAT APIC， 仍 然 可 以 把 各 个 CPU 单独 连接 到 8259A PEE b E 9.2 中 的 “本 地 中 
斯 请 求 ” 就 是 指 米 站 各 各 外 部 中 断 控 制 嚣 的 中 断 请 求 ， 以 及 1 CPU 内 部 产生 的 中 断 请 求 《 如 陶 阱 )。 
在 内 核 的 代码 中 , ARH APIC ifi 505 BEAU ARES ABI EO i EE PELL CONFIG_X86_LOCAL_APIC 

Fil. 

读者 在 第 3 章 中 曾经 看 钙 ， 内 核 中 的 中 断 响应 程序 是 通过 一 些 宏 操作 利用 gec TALMI SUE 
换 和 拼接 功能 自动 生成 的 。 同 样 ， 几 个 为 SMP 结构 专用 的 中 断 响 应 程序 也 是 由 这 样 的 宏 柠 作 生 成 的 ， 
这 个 宏 操作 定义 于 include/asm-i386/hw-irq.h FP: 
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图 9.2 SMP 结构 中 的 中 断 控制 机 构 


123 #define BUILD SMP INTERRUPT (x, v) XBUILD SMP INTERRUPT (x, v) 
124 #define XBUILD SMP INTERRUPT (x, v) \ 

125 asmlinkage void x(void); V 

126 asmlinkage void call ##x(void): \ 

127 asm (V 

128 — "An" ALIGN STR^Wn^ \ 

129 SYMBOL NAME STR(x) *:\n\t” \ 


130 “pushl $”#v"\n\t” \ 

131 SAVE ALL \ 

132 SYMBOL NAME STR (call ##x)”:\n\t” \ 

133 "call "SYMBOL NAME STR (smp ##x)”\n\t” \ 
134 “jmp ret from intr\n”); 


文件 arch/i386/kernel/i8259.c 中 引用 了 这 个 安 操作 ; 


74 /* 

15 * The following vectors are part of the Linux architecture, there 
76 * is no hardware TRQ pin equivalent for them, they are triggered 
77 * through the TCC by us (IPTs) 

78 */ 


79 #i fdel CONFIG SMP 

80 BUTLD SMP INTERRUPT (reschedule interrupt, RESCHEDULE VECTOR) 

8] BUTLD SMP INTERRUPT (invalidate interrupt, INVALLDATE TLB VECTOR) 
82 BUILD SMP INTERRUPT(call function interrupt, CALL FUNCTION VECTOR) 
83 Hendif 


以 这 里 的 80 行为 例 ， 经 过 gec 的 预 处 埋 以 后 就 会 必 成 这 样 : 
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asmlinkage void reschedule interrupt (void); ^ 
asmlinkage void call reschedule _interrupt (void); V 
| asm { 
reschedule interrupt: 

pushl $RESCHEDULE VECTOR 

SAVE ALL 
call smp reschedule interrupt: 

call smp reschedule interrupt 

jup ret from intr 


) 


因此 ， 当 发 生 RESCHEDULE, VECTOR 中 断 时 ， 响 应 程序 的 入 口 是 reschedule, interrupt( ), WJS 
际 处 理 中 斯 响应 的 冰 数 则 为 smp_reschedule_interrupt( ). 

同样 的 道理 ， 与 INVALIDATE TLB VECTOR 相对 应 的 入 口 是 invalidate_interrupt( )， 而 实际 处 理 
中 断 响应 的 则 是 smp_invalidate_interrupt( ); 与 CALL_FUNCTION_VECTOR 相对 应 的 入 口中 
call function, interrupt( ),. Tf] Sc x &b Pi | rig Sv RS zi smp_call_function_interrupt( )。 

RANE A : 节 中 已 经 看 过 invalidate interrupt( ) 的 代码 ， 这 蛙 青 来 看 看 男 一 个 中 断 服务 程序 
smp_reschedule_interrupt( ) 的 代码 。 顾 和 名 思 义 ， 这 个 丽 数 使 CPU 应 系统 中 为 一 CPU 之 请 求 而 进行 一 次 
进程 调度 ， 其 代 僻 在 arch/i386/kernel/smp.c F: 


513 /* 

514 * Reschedule call back. Nothing to do, 

515 * all the work is done automatically when 

516 * we return from the interrupt. 

517 */ 

518 asmlinkage void smp reschedule interrupt (void) 
519 { 

520 ack APIC irq( ); 

521. «3 


MEHLE, XX ARROEN t ack_APIC_irq( ) 向 CPU 中 的 APIC Atle HS RKAS 
iil, HOA SX + include/asm-i386/apic.h: 


54 extern inline void ack_APIC_irg (void) 


55. A 

56 /* 

57 * ack APIC irq( ) actually gets compiled as a single instruction: 
58 * — a single rmw on Pentium/82489DX 

59 * —a single write on P6+ cores (CONFIG X86 GOOD APIC) 
60 * ... yummie. 

61 */ 

62 

63 /* Docs say use 0 for future compatibility */ 

64 apic write around(APIC EOI, 0); 

65 |] 
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就 是 说 ， 往 本 地 APIC IN PARES “个 0， 表 示 己 经 收 到 了 中 断 请 求 ， 如 此 而 已 。 可 是 ， 实 
际 上 对 这 种 中 断 请 求 的 服务 隐藏 在 内 核对 中 断 处 理 的 公共 部 分 。 读 者 在 第 3 章 中 看 到 ， 不 管 是 什么 中 
汤 请 求 ， 内 核 在 针对 特定 中 断 请 求 的 服务 完成 以 后 都 要 检查 (本 CPU) 是 否 应 该 进行 … 次 进程 调度 ， 
mix (EAE smp_reschedule_interrupt( ) 所 要 达到 的 月 的 。 当 一 个 CPU 需要 另 个 CPU 进行 一 次 进程 调度 
时 ， 就 可 以 遂 过 调用 一 个 函数 smp_send_reschedule( ) 向 月 标 CPU 发 小 个 RESCHEDULE_VECTOR 
中 断 请 求 ， 这 个 函数 在 arch/i386/kernel/smp.c T: 


415 void smp send reschedule (int cpu) 

416 { 

417 send IPI mask(l << cpu, RESCHEDULE VECTOR) ; 
418 } 


Hi a) ELE BFE A CE TAT A EIT ERE, TR AE ET. EF HAR 
CPU 在 执行 完 中 断 服 务 程序 以 后 是 否 进行 进程 调度 ， 那 得 要 看 事先 或 者 处 埋 中 断 的 过 程 中 是 否 将 当前 
进程 的 need_resched 标志 设置 成 了 1 

相应 地 ， 在 系统 初始 化 时 划 在 函数 init_IRQ( ) 中 为 这 几 个 中 断 设 置 好 相应 的 中 断 门 。 我 们 在 第 3 
APALAK init IRQ( ) 的 代码 ， 当 时 忽略 了 与 SMP 结构 有 关 的 部 分 ， 坝 在 应 该 补 上 了 。 这 个 民 数 在 
arch/i386/kernel/18259.c 中 : 


438 void | init init IRQ(void) 


439 { 

440 int i; 

441 

442 Hifndef CONFIG X86 VISWS APIC 

443 init ISA irqs( ): 

444 Helse 

445 init VISWS APTC_irgs( ); 

446 Rendif 

447 /* 

448 * Cover the whole vector space, no vector can escape 
449 * us. (some of these will be overridden and become 
450 * ’ special’ SMP interrupts) 

451 */ 

452 for Gi = 0; i < NR IRQS; i++) { 

453 int vector = FIRST EXTERNAL VECTOR + i; 

454 if (vector != SYSCALL VECTOR) 

455 set intr gate(vector, interruptíil); 

456 } 

457 

458 #Hifdef CONFIG SMP 

459 /* 

460 * IRQO must be given a fixed assignment and initialized, 
461 * because it’s used before the 10-APIC is set up. 
462 */ 
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set intr gate(FIRST DEVICE VECTOR, interrupt[0]); 


/* 

* The reschedule interrupt is a CPU-to-CPU reschedulc-helper 
* IPI, driven by wakeup. 

*/ 

set_intr_gate(RESCHEDULE_VECTOR, reschedule interrupt); 


/* IPI for invalidation */ 
set intr gate(INVALIDATE TLB VECTOR, invalidate interrupt); 


/* TPT for generic function call */ 
set intr gate(CALL FUNCTION VECTOR, call function interrupt); 
tendif 


Sifdef CONFIG X86 LOCAL APIC 


/* self generated IPI for local APIC timer */ 
set intr gate(LOCAL TIMER VECTOR, apic timer interrupt); 


/* IP] vectors for APIC spurious and error interrupts */ 

set intr gate(SPURTOUS APIC VECTOR, spurious interrupt); 

set intr gate(ERROR APIC VECTOR, error interrupt); 
#endif 


/* 

* Set the clock to HZ Hz, we already have a valid 

* vector now: 

*/ 

outb p(0x34, 0x43) ; /* binary, mode 2, LSB/MSB, ch 0 */ 
outb p(LATCH & Oxff , 0x40); /* LSB */ 

outb(LATCH >> 8 , 0x40); /* MSB */ 


#ifndef CONFIG VISWS 
setup irq(2, &irq2); 
#endif 


/* 
* External FPU? Set Up irdql3 if so, for 
* original braindamaged LBM FERR coupling. 
*/ 
if (boot cpu data. hard math && !cpu has, fpu) 
setup irq(13, &irql3); 
} 


代码 中 452 行 的 for 循环 原 已 设置 了 从 FIRST_EXTERNAL_VECTOR, HI 0x20 IFAR RI 224 个 中 断 


门 向 量 ， 而 如 果 是 SM 系统 就 修改 了 其 中 的 4 T. IA DS Pj 4 个 中 断 向 量 〈 见 
include/asm-i386/hw_irg.h): 
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4] #define INVALIDATE TLB VECTOR Oxfd 
42 #define RESCHEDLLE VECTOR Oxf'c 
43 define CALL FUNCTION VECTOR Ox fb 


52 /* 

53 * First APIC vector available to drivers: (vectors 0x30-Oxee) 

54 * we start at 0x31 to spread out vectors evenly between priority 
55 * levels. (0x80 is the syscall vector) 

56 */ 


91 #define FIRST DEVICE VECTOR 0x31 
98 #define FINST SYSTEM VECTOR Oxef 


73" | Wi [a] gt FIRST. DEVICE VECTOR i& TJ] i OR SZ Re FF AE interrupt[0]. 回顾 一 让 第 3 音 小 的 有 
关内 容 使 可 以 知道 , 这 个 程序 是 IRQOxO1_interrupt( ). 进 入 这 个 函数 以 后 就 会 把 数值 一 256， 即 0xffffffo0 
压 入 堆栈 ， 然 后 转 入 common_interrupt， 最 后 进入 do_IRQ( )， 余 可 类 推 。 其 中 从 0x31 到 Oxef 是 用 于 
外 部 APIC BH VO APIC 的 中 断 向 量 。 这 个 区 间 的 中 断 向 量 基 本 上 没有 什么 变化 ， 还 与 采用 8259A 时 大 
致 相同。 然而 ， 在 SMP 结 移 路 这些 中 断 请 求 将 要 由 外 部 APIC Cif) RAE 8259A) 送 达 各 个 CPU， 所 以 
Meat “个 函数 setup_IO_APIC( ) 对 外 部 APIC 必 片 进行 初始 化 ， 并 关闭 8259A。 与 此 有 关 的 代码 都 
在 arch/i386/kernel/io_apic.c 中 。 因 代码 过 二 专门， 我们 在 这 里 就 从 略 了 。 有 兴趣 或 需要 的 读者 可 结合 
Intel 的 外 部 APIC 45r. (82489DX) 技术 资料 阅读 这 些 代码 。 

此 外 ，479 一 484 行为 CPU 的 内 部 APIC 设置 中 断 和 内 量 ， 主 此 是 时 钟 中 断 。 在 单 CPU 的 系统 中 ， 
是 否 采用 内 部 APIC 是 个 编译 选 搓 需 ， 

不 管 是 外 部 还 是 内 部 ，APIC 者 支持 从 0x20 到 0xff TE 240 个 不 癌 的 中 断 向 量 CO—Ox1f 用 于 CPU 
本 堵 的 陷阱 )。 这 些 中 断 癌 量 分 成 15 个 优先 级 ， 可 以 按 中 断 问 景 号 除 于 16 算得 ， 优 先 级 15 为 最 高 。 
每 个 CPU 都 通过 设 党 其 内 部 APIC 表明 准备 响应 哪 一 些 中 断 请 求 。 不 过 ,等 个 CPU 都 应 将 准备 加 以 响 
应 的 中 肠 向 量 尽 量 均 名 地 分 布丁 不同 的 优先 级 中 , Intel 的 技术 资料 规定 每 个 CPU 在 每 个 优先 级 中 使 用 
AP AES, AURA BT AEA AB TK 

外 部 APIC OS FIER B BEI: RIR OR ER EUN AS FRETS CPU NITES. EF RE 个 
PT In E, ATERIA APIC 1 WHEAT AS SBE BR a RES Pa a a EA) EO 
的 ， 则 外 部 APIC 把 这 种 中 断 请 求 提 父 给 预 设 的 一 个 或 多 个 CPU; 否则 就 提交 给 优先 级 最 低 的 CPU. 
而 各 个 CPU 当前 的 优先 级 也 是 可 以 通过 内 部 APIC 设置 的 ,与 此 有 关 的 代码 都 在 arch/1386/kermel/apic.c 
里 , 这 些 代码 也 过 于 专门 ,我 们 就 不 深入 进去 了 .外 部 APIC 的 初始 化 是 由 主 CPU 通过 setup IO. APIC() 
进行 的 ， 其 代码 在 arch/i386/kernel/io. apic.c F: | 


1521 void init setup IO APIC (void) 


1522 [ 

1523 enable TO APIC( ) ; 

1524 

1525 io apic irgs = "PIC IRQS; 

1526 printk (“RNABLING IO-APIC IRQs\n”) ; 

1527 

1528 /* 

1529 * Set up the IO-APIC IRQ routing table by parsing the MP-BIOS 
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1530 * mptable: 

1531 */ 

1532 setup ioapic ids from mpc( ); 
1533 sync Arb IDs( ); 

1534 setup 10 APIC irqs( ); 

1535 init IO APIC traps( ); 

1536 check timer( ); 

1537 print IO APIC( ) ; 

1538  ] 


考虑 到 本 书 的 篇 幅 ， 我 们 无 法 在 这 里 深入 到 这 些 代 码 中 了 。 事 实 上 ， 光 是 与 APC 有 关 的 内 容 和 
代码 就 己 经 够 写 ABT. 


除外 部 APIC 可 以 把 来 自 外 部 设备 的 中 断 请 求 提交 系统 中 的 各 个 CPU 外 , 每 个 CPU 也 都 可 以 通过 
其 内 部 APIC 向 其 他 CPU 发 出 中 断 请 求 。 当 :个 CPU 此 引起 其 他 CPU 的 INVALIDATE_TLB_VECTOR 
或 RESCHEDULE_VECTOR 中 断 时 ， 可 以 通过 调用 send_IPI_mask( ) 来 达到 目的 。 这 个 函数 的 代码 在 
arch/i386/kernel/smp.c H : 


172 static inline void send_IPI mask(int mask, int vector) 
ie. - “ 

174 unsigned long cfg; 

175 unsigned long flags; 

176 

177 __save_flags (flags) ; 

178 selves): 

179 

180 /* 

181 * Wait for idle. 

182 */ 

183 apic wait icr idle( ); 

184 

185 /* 

186 * prepare target chip field 

187 */ 

188 cfg = | prepare_1CR2 (mask) ; 

189 apic write around(APIC ICR2, cfg); 
190 

191 /* 

192 * program the ICR 

193 */ 

194 cfg = | prepare ICR(O, vector); 
195 

196 /* 

197 * Send the TPT. The write to APIC [CR fires this off. 
198 */ 

199 apic write around(APIC ICR, cfg); 
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200 . restore flags(flags); 
201 } 


CPU 的 内 部 APIC 有 一 些 控制 寄存 器 ，APIC_ICR 利 APIC_ICR2 是 其 中 的 两 个 。 要 向 系统 中 的 某 
一 个 CPU KU PKI, ACE apie wait icr idle( )， 确 认 或 等 待 APIC_ICR 处 于 空闲 状态 ， 
然后 通过 _ prepare ICR(. ) 4H... prepare ICR2( )， 准 备 好 要 写 入 这 两 个 寄存 器 的 数值 
(arch/i386/kernel/smp.c): 


114 static inline int __prepare_ICR (unsigned ini shortcut, int vector) 
115 { 

116 return APIC DM FIXED | shortcut | vector | APIC DEST LOGICAL; 
107  ] 

118 

119 static inline int | prepare ICR2 (unsigned int mask) 

120 ( 

121 return SET APTC DEST FIELD (mask) ; 

122 } 


寄存 器 APIC ICR2 主 此 用 来 说 明 发 送 中 断 请 求 的 日 标 , 这 种 目标 可 以 是 具体 的 CPU, 也 可 以 是 除 
发 送 者 目 刀 以 外 的 所 有 CPU,， 述 可 以 是 包括 发 送 者 自身 在 内 的 所 有 CPU, 其 至 仅 是 发 送 者 自 昧 。 最 后 ， 
把 含有 发 六 目标 的 数值 写 入 寄存 器 APIC_ICR2， 把 含有 中 断 疝 量 (如 RESCHEDULE_VECTOR) 的 数 
但 与 入 寄存 占 APIC_ICR， 就 完成 了 中 断 请 求 的 发 送 操作 。 

MUR — 1 AREE SR [8] RUBER] E E CALL. FUNCTION. VECTOR, HIRIK E] bx CPU 执行 一 个 指定 的 
PAN. AREE EUER CTI call data struct 数据 结构 ， 然 后 前 目标 CPU 发 出 请 求 。 这 个 数据 结 
构 的 定义 在 arch/i386/kernel/smp.c FP: 


420 /* 

421 * Structure and data for smp call function( ). This is designed to minimise 
422 * static memory requirements. Tt also looks cleaner. 
423 */ 

424 static spinlock t call lock = SPIN LOCK UNLOCKED; 

425 

426 struct call data struct | 

421 void (kfunc) (void *info); 

428 void *info; 

429 atomic t started; 

430 atomic t finished; 

431 int wait; 

432 m 

433 


434 static struct call data struct * call data: 


数据 结构 中 的 函数 指针 func 号 是 要 求 对 方 执行 的 函数 ， 另 一 个 指针 info 则 为 参数 。 读 者 在 前 面 已 
经 看 到 ,对 应 十 CALL FUNCTION. VECTOR 的 中 断 服务 程序 是 smp. call. function, interrupt( )， 其 代码 
£c. arch/i386/kernel/smp.c H: 
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523 asmlinkage void smp call function interrupt (void) 


524 并 

525 void (*func) (void *info) = call data->func; 

526 void *info = call data-^info; 

527 int wait = call data->wait; 

528 

529 ack APIC irq( ); 

530 /* 

531 * Notify initiating CPU that I've grabbed the data and am 
532 * about to execute the function 

533 */ 

534 atomic inc(&call data->started) ; 

535 /* 

536 * At this point the info structure may be out of scope unless wait--l 
537 */ 

538 Ckfunc) (info); 

539 if (wait) 

540 atomic inc (&cal]_data->finished) ; 

541  ] 


当然 ， 一 般 的 函数 是 没有 必 此 请 其 他 CPU 来 执行 的 ， 系 统 中 所 有 的 CPU 者 可 共享 着 同样 的 代 色 
和 数据 。 之 所 以 要 通过 处 理 器 间 中 断 请 其 他 CPU 执行 ， 是 因为 菜 个 函数 此 得 由 日 标 CPU 才能 完成 。 
例如 ，Pentium 处 理 器 有 一 条 指令 cpuid， 通 过 这 条 指令 可 以 查询 本 CPU 是 什么 型 号 、 伯 人 么 版 本 ， 是 五 
支持 一 些 特 听 的 功能 ， 当 前 的 功能 设置 等 等 的 信息 。 但 是 这 条 指令 只 能 由 具体 的 CPU IRE AT, fü 
能 由 别 的 CPU 代 杰 。 这 样 ， 如 果 要 知道 系统 中 某 一 个 CPU 的 有 关 情 况 ， 就 只 能 道 过 这 种 处 理 器 间 中 
断 来 实现 。 基体 的 函数 为 cpuid_smp_cpuid( ), 其 代码 在 arch/i386/kernel/cpuid.c F, AAT A É AiR. 

有 了 时候 需 要 把 中 断 请 求 发 送 给 除 当 前 CPU 自身 以 外 的 所 有 CPU, JER Ay og 
send IPI allbutself( )， 发 出 广播 式 的 中 断 请 求 。 其 代码 在 arch/i386/kernel/smp.c "t: 


151 static inline void send IPI allbutself (int vector) 


152 { 

153 /* 

154 * if there are no other CPUs in the system then 
155 * we get an APIC send error if we try to broadcast. 
156 * thus we have to avoid sending IPIs in this case. 
151 */ 

158 if (smp num cpus > 1) 

159 | send IPl shoricut(APIC DEST ALLBUT, vector); 
160  ] 


具体 的 发 送 操作 由 __send_IPL shorteut() 完 成 ， 其 代 但 也 在 同一 文件 中 : 
[send IPI allbutself( ) > __ send_IPI_shortcut( )] 


124 static inline void __send_IPI_shortcut (unsigned int shortcut, int vector) 
125:. 3 
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126 /* 

127 * Subtle. In the case of the 'never do double writes’ workaround 
128 * we have to lock out interrupts io be safe. As we don t care 
129 * of the value read we use an atomic rmw access to avoid costly 
130 * cli/sti. Otherwise we use an even cheaper single atomic write 
131 * to the APIC. 

132 */ 

133 unsigned int cfg; 

134 

135 /* 

136 * Wait for idle. 

137 */ 

138 apic wait icr idle( ) : 

139 

140 f* 

141 * No need to touch the target chip field 

142 */ 

143 cfg = | prepare ICR(shortcut, vector); 

144 

145 /* 

146 * Send the IPT. The write to APIC_ICR fires this off. 

147 */ 

148 apic write around(APIC ICR, cfg); 

149 } 


可 见 ， T RAATI RRG HEE fR] FE, 

CERTAIN EP | Tp se ER AY EE A (DART. AACN Ek p Er EE a 
BE". 在 SMP 结构 的 系统 中 ， 内 部 APIC AU RAS r- 个 32 位 可 编程 定时 器 ， 所 以 各 个 CPU 下 以 选 
择 使 用 本 地 的 时 钟 中 断 源 ， 也 可 以 选择 使 用 外 部 的 全 局 时 钟 中 断 源 。 所 谓 吕 编程 定时 器 实质 上 是 个 计 
数 器 ， 设 置 好 计数 器 的 初 值 以 后 ， 每 米 一 个 时 钟 脉冲 计数 器 就 减 1， 减 到 0 时 研发 出 一 个 中 有 断 请 求 。 在 
系统 初始 化 阶段 ， 主 CPU 在 启动 次 CPU 运行 以 后 便 通 过 setup_APIC_clocks( ) 设 置 APIC 中 的 时 钟 中 
断 源 ， 这 个 函数 的 代码 在 arch/i386/kernel/apic.c "P: 


[start kernel( ) > smp init( ) > smp_boot_cpus( ) > setup_APIC_clocks( )] 


597 void init setup ÁPIC clocks (void) 


598 { 

599 - cli( ); 

600 

601 calibration result - calibrate APIC clock( ); 
602 /* 

603 * Now set up the timer for real. 

604 */ 

605 setup APIC timer((void *) calibration result); 
606 

607 ei Go 
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608 

609 /* and update all other cpus */ 

610 smp call function(setup APIC timer, (void *)calibration result, 1, 1); 
611 j 


在 此 之 前 ， 系 统 先 没 置 了 个 外 部 时 钟 中 断 源 供 所 有 CPU 共享 ， 放 且 以 此 为 基准 测算 各 个 CPU 
的 运算 如 度 。 到 初始 化 基本 完成 时 再 通过 这 个 函数 为 各 个 CPU 设置 其 内 部 APIC 中 的 定时 器 ， 以 作为 
本 地 的 时 钟 中 断 源 。 这 里， 先 通过 calibrate_APIC_clock( )， 测 算出 时 钟 中 断 相对 于 APIC 总 线 二 时 钟 
脉冲 的 周期 。 所 有 CPU 的 APIC 都 通过 APIC 总 线 连 在 一 起 ， 它 们 都 有 相同 的 时 钟 脉 冲 周期 ， 根 据 这 
个 时 钟 脉冲 周期 总 可 以 计算 出 时 钟 中 断 的 向 期 。 有 具体 的 设置 是 由 setup. APIC. timer( ) 完 成 的 。 当 然 ， 各 
个 CPU 只 能 设置 其 自己 的 APIC， 而 不 能 具 接 设置 其 他 CPU 的 APIC， 所 以 通过 smp_call_function( ) 
向 所 有 的 次 CPU 者 发 出 一 个 处 理 嚣 间 中断 请 求 ， 让 各 个 次 CPU 也 来 执行 这 个 函数 。 其 函数 代码 也 在 
arch/1386/kerneVapic.c 中 : 


469 void setup APIC timer (void * data) 


470 { 

471 unsigned int clocks = (unsigned int) data, slice, t0, tl; 
472 unsigned long flags; 

473 int delta; 

474 

475 | save Flags (flags) ; 

476 __stiC); 

477 /* 

478 * ok, Intel has some smart code in their APIC that knows 
479 * if a CPU was in hlt lowpower mode, and this increases 
480 * its APIC arbitration priority. To avoid the external timer 
481 * IRQ APIC event being in synchron with the APIC clock we 
482 * introduce an interrupt skew to spread out timer events. 
483 * i 

484 * The number of slices within a ‘big’ timeslice is smp num cpus+l 
A85 */ 

486 

487 slice - clocks / (smp num cpus*l); 

ABB printkCepu: %d, clocks: %d, slice: %d\n", 

489 smp processor id( ), clocks, slice); 

490 

491 /* 

492 * Wait for IRQO s slice: 

493 */ 

494 wait 8254 wraparound( ); 

495 

496 . .sctup APIC LYTT (clocks); 

497 

498 t0 — apic read(APIC TMICT) *APIC DIVISOR; 

499 /* Wait till TMCCT gets reloaded from TMICT... */ 

500 do { 
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501 tl - apic read (APIC TMCCT)**APIC DIVTSOR; 

502 delta = (int) (tO - t1 - slice*(smp processor id( )*1)) ; 
503 ! while (delta >= 0); 

504 /* Now wait for our slice for real. */ 

505 do { 

506 tl = apic_read(APJC TMCCT) *APIC_DIVISOR; 

507 delta = (int) (tO — tl ~ slice*(smp processor id( )+1)); 
508 ) while (delta < 0); 

509 

510 setup APIC LVTT (clocks); 

514 

512 printk (“CPU%d<TO: %d, T1:96d, D:96d, S:%d, C:%d>\n”, 

513 smp processor id( ), tO, tl, delta, slice, clocks); 
514 

515 . restore flags(fiags); 

516 } 


为 了 不 让 所 有 的 CPU 者 在 同一 时 刻 发 生 时 钟 中 断 ， 这 里 通过 两 个 do-while (APPAR CPU 5 
引入 不 同 数量 的 延迟 ， 使 各 个 CPU 的 时 钟 中 断 在 柑 位 上 互相 错开 ， 使 这 些 中 断 均 名 地 分 布 看 时 钟 中 断 
的 周期 中 。 

我 们 把 各 个 CPU 对 本 地 时 钟 中 断 的 服务 程序 列 出 于 下 (archy/i386/kerneJyapic.c)， 供 读者 结合 第 3 前 
中 与 时 钟 路 斯 有 关 的 内 容 自 行 阅 读 。 


709 void smp apic timer interrupt (struct pt regs * regs) 


710 { 

711 int cpu = smp processor id( ); 

712 

713 /* 

714 * the NMI deadlock-detector uses this. 

715 */ 

116 apic timer irqslcepul-**; 

717 

718 /* 

719 * NOTE! We d better ACK the irq immediately, 

720 * because timer handling can be slow. 

721 */ 

722 ack APIC irqgq( ); 

723 /* 

724 * update process times( ) expects us to have done irq enter( ). 
725 * Besides, if we don t timer interrupts ignore the global 
726 * interrupt lock, which is the WrongThing (tm) to do. 
727 */ 

128 irq enter(cpu, 0); 

129 smp local timer interrupt (regs); 

730 irq exit(cpu, 0); 

73340  ] 
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pg smp_local_timer_interrupt( ) 的 代码 也 在 arch/i386/kernel/apic.c 路 : 


Local timer interrupt handler. It does both profiling and 
process statistics/rescheduling. 


We do profiling in every Jocal tick, statistics/rescheduling 

happen only every ’ profiling multiplier’ ticks. The default 
multiplier is 1 and it can be changed by writing the new multiplier 
value into /proc/profile. 


inline void smp local timer interrupt (struct pt regs * regs) 


{ 


int user = user mode (regs) ; 
int cpu = smp processor id( ); 


/* 
* The profiling function is SMP safe. (nothing can mess 
* around with “current”, and the profiling counters are 
* updated with atomic operations). This is especially 
* useful with a profiling multiplier != 1 
*/ 
if (tuser) 

x86 do profile(regs—>eip) ; 


if (prof counter[cpu] <= 0) { 
/* 
* The multiplier may have changed since the last time we got 
* to this point as a result of the user writing to 
* /proc/profile. In this case we need to adjust the APIC 
* timer accordingly. 
* 
* 


Interrupts are already masked off at this point. 

*/ 

prof counter[cpu] = prof multiplier[cpu]; 

if (prof counter[cpu] != prof old multiplier[cpul]) | 
setup APIC LVTT(calibration result/prof counter[cpul); 
prof old multiplier[cpu] = prof counter|[cpul; 


#ifdef CONFl1G SMP 
update process times(user); 
Hendif 
} 
/* 
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688 * We take the ' long’ return path, and there every subsystem 

689 * grabs the apropriate locks (kernel lock/ irq lock). 

690 水 

691 * we might want to decouple profiling from the 'long path’, 

692 * and do the profiling totally in assembly. 

693 * 

694 * Currently this isn’ t too much of an issue (performance wise), 

695 * we can take more than 100K local irqs per second on a 100 Milz P5. 
696 */ 

697 } 


此 外 ， 读 者 在 第 3 章 中 阅读 过 一 些 与 时 钟 中 断 有 关 的 代码 ， 其 中 有 些 条 件 编译 也 是 与 SMP 结构 或 
内 部 APIC 有 关 的 ， 不 妨 回 过 去 看 一 下 。 


9.5 SMP 结构 中 的 进程 调度 


在 单 CPU 的 系统 中 ， 得 … 个 给 定 的 时 刻 只 有 当前 进程 是 在 运行 中 ， 其 他 所 有 的 进程 者 不 在 运行 。 
可 是 ， 在 SMP 结构 的 系统 中 坤 同时 有 好 几 个 进程 在 运行 ， 所 以 需 此 让 进 程 的 task_struct 数据 结构 中 加 
上 两 个 字段 。 一 个 是 has_cpu， 为 上 时 表示 进程 止 在 某 个 CPU 上 运行 ， 为 0 时 则 表示 进程 森 在 运行 。 

男 一 个 字段 是 processor， 当 has_cpu 为 1 时 这 个 字段 说 明 进 程 在 哪 一 个 CPU 上 运行 。 可 想 出 知 ， 一 
进程 只 有 在 has epu 字段 为 0 才 吕 以 接受 调度 进入 运行 ， 这 :点 从 宏 操 作 can_schedule( ) 的 定义 可 以 看 
出 (kernel/sched.c): 


108 #ifdef CONFIG SMP 

109 

110 #define idle task(cpu) (init tasks|cpu_number_map (cpu) ]) 
111 #define can_schedule(p, cpu) ((!(p)->has_ cpu) && V 
112 ((p)— epus allowed & (1 << cepu))) 
113 

114 Helse 

115 

116 Hdefine idle task(cpu) (&init task) 

117 #define can Schedule (p, cpu) (1) 

118 

119 Hendif 


这 里 的 cpus_allowed 是 task_struct 数据 结构 中 的 男 “ 个 字段 ， 它 是 一 个 位 图 。 位 图 中 的 某 一 位 为 1 
就 上 水 允许 这 个 进程 接受 调度 在 相应 的 CPU 上 运行 。 从 这 个 意义 上 讲 , 进程 调度 是 个 双向 选 择 的 过 程 。 

当 一 个 CPU 通过 schedule( ) 从 系统 的 就 绪 队 列 中 挑选 了 一 个 进程 作 为 运行 的 下 一 个 进程 next, H 
将 从 当前 进程 prev 切换 到 这 个 进程 时 ,就 将 其 task_struct 结构 中 的 has. epu 字段 设置 成 1, 并 将 processor 
设置 成 该 CPU 的 逻辑 编号 。 我 们 回 过 头 去 〈 第 4 章 ) 看 一 下 schedule( ) 中 有 关 的 片段 (kemel/sched.c): 


508 asmlinkage void schedule (void) 
509 { 
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518 this cpu = prev->processor; 


587 #ifdef CONFIG SMP 


588 next->has cpu = 1; 

589 next-»processor = this cpu; 
590 #endif 

591 spin unlock irq(&runqueue lock); 
592 

593 if (prev -- next) 

594 goto same process; 

595 

648 switch to(prev, next, prev); 
649 . Schedule tail(prev); 

690 } 


从 进程 prev 切换 到 next 以 后 ,要 对 prev WA —~* eG Be__ schedule tail( )。 这 个 函数 的 代码 对 于 SMP 
结构 和 单 CPU 结构 有 和 较 大 的 不 同 〈 见 kernel/sched.c). 


[schedule( ) > __schedule_tail( )] 


426 static inline void | schedule tail(struct task struct *prev) 


420 | 

428 #ifdef CONFIG SMP 

429 int policy; 

430 

431 /* 

432 * prev—>policy can be written from here only before ` prev’ 
433 * can be scheduled (before setting prev >has cpu to zero). 
434 * Of course it must also be read before allowing prev 

435 * to be rescheduled, but since the write depends on the read 
436 * to complete, wmb( ) is enough. (the spin lock( ) acquired 
437 * before setting has cpu is not enough because the spin lock( ) 
438 * common code semantics allows code outside the critical section 
439 * to enter inside the critical section) 

440 */ 

441 policy = prev->policy; 

442 prev->policy = policy & "SCHED YIELD; 

448 wmb( ) ; 

444 

445 /* 

446 * fast path falls through. We have to clear has cpu before 
447 * checking prev->state to avoid a wakeup race - thus we 

448 * also have to protect against the task exiting early. 

449 */ 
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task_lock (prev) ; 

prev-^has, cpu = 0; 

mb( ) ; 

if (prev->state == TASK RUNNING) 
goto needs_resched; 


out_unlock: 
task unlock(prev); /* Synchronise here with releasc_task( ) 
if prev is TASK ZOMBIE */ 
return; 


* Slow path - we ’ push’ the previous process and 

* reschedule idle( ) will attempt to find a new 

* processor for it. (but it might preempt the 

* current process as well.) We must take the runqueue 

* lock and re-check prev->state to be correct. It might 
* still happen that this process has a preemption 

* 'in progress’ already - but this is not a problem and 
* might happen in other circumstances as well. 


needs rosched: 


1 


unsigned long flags; 


f 
* Avoid taking the runqueue lock in cases where 
* no preemption-check is necessery: 
*/ 
if ((prev == idle task(smp processor id( ))) || 
(policy & SCHED YTELD)) 
goto out unlock; 


spin lock irqsave(&runqueue lock, flags); 
if (prev->state == TASK RUNNING) 
reschedule idle(prev); 
spin unlock irgrestore(&runqueue lock, flags); 
goto out unlock; 
j 
#else 
prev->policy &= ~SCHED_YIELD; 
#endif /* CONFIG SMP */ 
} 


从 代码 中 避 见 , 这 个 inline RHO CPU 系统 只 有 一 行 , 那 就 是 489 47, 将 原来 的 当前 进程 prev 


的 SCHED_YIELD 标志 位 设 成 0〈 礼 让 只 是 一 次 有 效 )， 而 这 只 在 prev 通过 系统 调用 日 愿 礼让 ， 暂 时 


放弃 


运行 时 才 有 实际 的 作用 。 可 是 , 对 十 SMP 结构 就 不 同 了 ,除了 也 发 把 进程 prev 的 SCHED_YIELD 
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标志 位 设 成 0 以 外 ， 这 里 还 有 儿 件 事 要 做 。 首 先是 要 把 进程 prev 的 has cpu 标志 设 成 0， 表 示 这 个 进 
FECA TEE CPU 上 运行 ,代码 中 的 443 行 和 452 行 分 别 在 写 操 作 以 后 和 读 操 作 之 前 设置 了 内 存 路 障 ， 
目的 是 : 一 方面 费 使 其 他 CPU 立即 就 能 看 到 所 作 的 改变 ， 男 一 方面 是 此 读 到 内 存 中 最 新 的 内 容 。 田 一 
件 事 是 : 如 果 进 程 prev 的 运行 晟 被 潮 夺 的 ， 那 就 蔡 它 找 找 出 路 ， SPL CRE AF CPU Lis 
行 。 进 程 prev 的 状态 为 TASK_RUNNING， 说 明 它 的 运行 是 被 剥夺 的 ， 或 者 是 通过 系统 调用 自愿 礼让 
而 暂时 放弃 的 ， 所 以 ， 如 果 在 479 行 排除 了 礼让 的 可 能 性 ， 束 必然 是 被 剥夺 了 运行 。 不 过 ， 被 剥夺 运 
行 的 进程 并 不 一 定 有 必要 ， 或 者 不 一 定 可 以 为 它 另 找 一 个 处 理 器 。 如 果 这 个 进程 是 “空转 ”进程 ， 也 
就 是 当前 CPU 上 的 init HERE CS SMP 结构 的 引导 过 程 一 节 ) ATA, ABA TASC AT, 75 
一 方面 也 根本 不 允许 转 旬 其 他 CPU 上 运行 。 把 这 些 情况 部 排除 了 以 后 ， 就 只 剩 下 了 PPS He. ADAE 
这 个 进程 确 是 有 事 可 干 ， 只 是 因为 强制 性 调度 被 剥夺 了 运行 。 有 所 以 ， 此 时 上 调用 reschedule_idle(), X 
试 能 否 将 其 转 到 其 他 CPU 上 运行 。 这 个 函数 的 代 个 在 kernel/sched.c H: 


[schedule( ) ».. schedule tail( ) > reschedule_idle( )] 


205 static void reschedule idle (struct task_struct * p) 


206 { 

207 #ifdef CONFIG SMP 

208 int this cpu = smp processor id( ); 

209 struct task struct *tsk, *target_tsk; 

210 int cpu, best cpu, i, max_prio; 

211 cycles t oldest idle; 

219 

213 /* 

214 * shortcut if the woken up task' s last CPU is 

215 * idle now. 

216 */ 

217 best cpu = p Pprocessor; 

218 if (can schedule(p, best cpu)) { 

219 tsk = idle task(best cpu); 

220 if (cpu eurr(best cpu) == tsk) { 

221 int. need resched; 

dd send now idlo: 

223 /* 

224 * If need resched == -1 then we can skip sending 
245 * the IPI altogether, tsk->need resched is 
226 * actively watched by the idle thread. 

227 */ 

228 need resched = tsk->need_resched; 

229 tsk-^need resched = 1; 

230 if ((best cpu != this cpu) && !need resched) 
291 smp send reschedule(best cpu); 

232 return; 

233 | 

234 } 

235 


- 639. 


Linux 内 核 源 代码 情景 分 析 Cb aD 


236 /* 

237 * We know that the preferred CPU has a cache-affine current 
238 * process, lets try to find a new idle CPU for the woken-up 
239 * process. Select the least recently active idle CPU. (that 
240 * one will have the least active cache context.) Also find 
241 * the executing process which has the least priority. 
242 */ 

243 oldest idle = (cycles 1) -1; 

244 target tsk = NULL; 

245 max prio = 1; 

246 

247 for (i = 0; i < smp num cpus: it!) f 

248 cpu = epu logical map (i) ; 

249 if (!can schedule(p, cpu?) 

250 continue; 

251 tsk = cpu curr (cpu) ; 

252 f* 

253 * We use the first available idle CPU. This creates 
254 * a priority list between idle CPUs, but this is not 
25b * a problem. 

256 */ 

257 if (tsk = idle task(cpu)) { 

258 if (last schedule(cpu) € oldest idle) { 

259 oldest idle = last, schedule(cpu); 

260 target tsk - tsk; 

261 ) 

262 ) else | 

263 if (oldest idle 一 -1ULL) { 

264 int prio - preemption goodness(tsk, p, cpu); 
265 

266 if (prio > max prio) { 

267 max_prio = prio; 

268 target_tsk = tsk; 

269 } 

270 } 

271 } 

272 } 

273 tsk - target tsk; 

274 if (tsk) | 

275 if (oldest idle != -1ULL) { 

276 best cpu = tsk-»processor; 

211 goto send now idle; 

278 } 

279 tsk->need resched = |; 

280 if (tsk->processor != this cpu) 

281 smp send reschedule (tsk~>processor) : 

282 ] 

283 return; 
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284 

285 

286 Helse /* UP */ 

287 int this cpu = smp processor id( ); 
288 struct task struct *tsk; 

289 

290 tsk = cpu curr(this cpu); 

291 if (preemption goodness(tsk, p, this cpu) > 1) 
292 tsk-^»need resched = 1; 

293 #endif 

204  ] 


代码 中 的 208—283 THT SMP 结构 。 这 段 代 码 先 检查 被 剥夺 运行 的 进程 是 否 可 以 在 诛 来 的 CPU 
上 恢复 运行 (如果 这 个 CPU 十 的 当前 进程 是 “空转 ”进程 的 话 )。 不 行 就 进一步 通过 一 个 for 循环 依次 
考察 系统 中 的 所 有 CPU， 如 果 被 判 夺 运 行 的 进程 允许 在 某 个 CPU 上 运行 ， 而 这 个 CPU 上 的 当前 进程 
是 “空转 ”进程 ,或 者 其 “goodness”， 妈 运行 资格 低 寺 被 剥 全 运行 的 进程 ， 那 么 这 个 CPU 上 的 当前 进 
程 就 是 一 个 可 以 剥 舍 的 候选 对 象 。 当 系统 中 存在 多 个 可 以 剥夺 的 进程 时 ， 就 从 中 找 出 已 经 运行 时 间 最 
长 或 运行 资格 最 低 的 进程 ， 总 之 是 “大 鱼 吃 小 鱼 ”“ 柿 子 拣 软 的 担 ”。 到 for 循环 结束 时 ， 如 果 找 到 了 
可 以 剥夺 的 进程 ， 就 将 其 task_struct 结构 中 的 need_resched 标志 设 成 1， 再 向 其 所 在 的 CPU 发 出 一 个 
RESCHEDULE VECTOR 中 断 请 求 ， 否 则 就 只 好 算 了 。 


信和 号 的 发 送 也 与 进程 调度 有 关 。 在 将 一 个 信 与 发 送 给 一 个 进程 以 后 , 费 通 过 signal_wake_up( ) 把 目 
标 进程 唤醒 。 在 单 CPU 的 系统 中 ， 如 果 目 标 进程 正在 运行 ， 邦 就 必定 是 同一 CPU 上 的 当前 进程 ， 当 
CPU 从 中 断 或 系统 调用 返回 用 户 空间 的 前 锈 ， 就 会 处 理 这 个 信号 。 否 则 ， 目 标 进程 也 许 是 就 绪 进 程 ， 
也 许 是 个 正在 睡眠 的 进程 ， 那 就 要 将 其 唤醒 。 总 之 ， 到 目标 进程 下 一 次 受 调度 运行 时 就 会 先 处 理 接收 
到 的 信和 号。 在 SMP 结构 中 的 情况 要 略为 复杂 一 些 ， 因 为 日 标 进程 有 中 能 正在 男 一 个 CPU 上 运行 。 为 
了 使 信号 及 时 得 到 处 理 ， 此 时 要 向 正在 执行 日 标 进程 的 CPU 发 送 一 个 RESCHEDULE VECTOR "Br 
请 求 。 下 面 是 有 关 的 代码 (kernel/signalc): 


466 static inline void signal wake up(struct task struct *t) 
467 {f 

468 t-?sigpending = l; 

469 

470 if (t->state & TASK INTERRUPTIBLE) | 

471 wake up process(t); 

412 return; 

4T3 ) 

474 

475 #ifdef CONFIG SMP 

476 /* 

477 * If the task is running on a different CPU 

478 * force a reschedule on the other CPU to make 

479 * it notice the new signal quickly. 

480 * 

481 * The code below is a tad loose and might occasionally 
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482 * kick the wrong CPU if we catch the process in the 

483 * process of changing - but no harm is done by that 

484 * other than doing an extra (lightweight) IPI interrupt. 
485 */ 

486 spin lock(&runqueue lock); 

487 if (t-^has cpu && t->processor !- smp processor id( )) 
488 smp send reschedule (t->processor) ; 

489 spin unlock(&runqueue lock); 

490 Hendif /* CONFIG SMP */ 

491]  ] 


这 里 的 第 488 行 向 对 方 发 出 一 个 RESCHEDULE_VECTOR 中 断 请 求 。 中 断 请 求 的 直接 目的 并 不 在 
于 让 对 方 进行 一 次 进程 调度 ， 和 而 只 是 使 对 方 产 生 一 次 中 断 ， 为 及 时 处 理 刚 投递 的 售 号 创造 条 件 。 


9.6 SMP 系统 的 引导 


SMP 结构 中 的 所 有 CPU 都 古 平等 的 ,没有 主 次 之 分 ,这 实际 上 是 建立 在 系统 中 有 多 个 进程 或 者 多 
个 执行 “上 下 文 ” 前 提 下 的 。 在 同 … 时 间 中 ， -个 “了 下 文 ?” 只 能 由 一 个 CPU 处 理 ， 人 省 则 只 会 把 事情 
摘 糟 。 如 果 系 统 中 一 具 才 只 有 一 个 “上 上 下文 ?， 那 么 有 再 多 的 CPU 存在 也 无 从 发 控 作 用 。 所 以 ， 系 统 
的 引导 和 初始 化 阶段 是 个 特例 ， 因 为 在 这 个 阶段 里 系统 中 只 有 一 个 “上 下 文 *， 只 能 由 一 个 处 理 器 米 处 
理 。 在 这 个 阶段 里 ， 也 就 是 在 系统 刚 加 电 或 “总 清 ”(reset) 之 后 ， 系 统 中 暂时 内 有 一 个 处 理 嚣 运行， 这 
个 处 理 器 称 为 “引导 处 理 器 ”BP; 其 余 的 处 理 器 则 处 于 暂 集 状态 ， 称 为 “应 用 处 理 器 ”AP。“ 引导 处 
理 器 ” 完成 了 系统 的 引导 和 初始 化 ， 并 创建 起 多 个 进程 ， 从 而 可 以 几 多 个 处 理 器 同时 参与 处 理 时 ， 才 
启动 所 有 的 “应 用 处 理 器 ” 让 它们 在 完成 自身 的 初始 化 以 后 投入 运行 。 一 旦 各 个 “应 用 处 理 丹 ”者 已 
投入 运行 ， 这 种 暂时 的 主 次 关系 便 告 结束 ， 从 此 以 后 使 一 律 平等 了 。 系 统 的 引导 和 初始 化 本 是 下 一 章 
的 题材 ， 但 是 我 们 在 这 里 关心 的 是 “引导 处 理 器 ”怎样 为 各 个 “应 用 处 理 器 ” 作 好 运行 的 准备 ， 然 后 
启动 其 运行 的 过 程 。 这 个 过 程 固 然 是 整个 系统 初始 化 过 程 中 的 一部分， 但 是 实际 上 与 SMP 结构 的 关系 
更 为 密切 ， 所 以 放 符 本 章 中 叙述 。 

在 初始 化 阶段 ,“ 引 导 处 理 器 ” 先 完 成 目 芷 的 韦 始 化 ， 进 入 保护 模式 并 开局 页 式 人 存储 管理 机 制 ， 髓 
完成 系统 特别 是 内 存 的 初始 化 ， 然 后 就 从 start_kernel( ) 调 用 smp_init( ) 进 行 SMP 结构 的 初始 化 。 这 个 
函数 的 代码 在 init/main.c 中 : 


[start kernel( ) > smp init( )] 


505 /* Called by boot processor to activate the rest. */ 
506 static void | init smp_init (void) 


507 | 

508 /* Get other processors into their bootup holding patterns. */ 
509 smp boot cpus( ); 

510 smp threads ready-l; 

511 smp commence ( ); 

512 } 
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这 个 函数 的 主体 是 smp_boot_cpus()， 它 依次 启动 系统 中 的 各 个 CPU, 让 它们 各 自 走 过 初始 化 的 第 
一 阶段 。 各 个 次 CPU 在 完成 了 自身 的 初始 化 以 后 者 要 停 下 来 等 待 一 个 统一 的 “起 跑 ” 命令 。 而 主 CPU, 
则 在 完成 了 所 有 次 CPU 的 启动 以 后 通过 smp_commence( ) 发 出 这 个 命令 。 我 们 先 看 smp_boot_cpus( )， 
其 代码 在 rchi386/kernel/smpboot.c 中 。 我 们 分 段 阅读 。 


[start kernel( ) > smp init( ) > smp boot cpus( )] 


829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
844 
845 
846 
847 
848 
849 
850 
851 
852 
853 
854 
855 
856 
857 
858 
859 
860 
861 
862 
863 
864 
865 
866 
867 
868 


void | init smp boot cpus (void) 
| 


int apicid, cpu; 


Hifdef CONFÍG MTRR 
/* Must be done before other processors booted */ 
mtrr init boot cpu ( ); 
Hendif 
/* 
* Initialize the logical to physical CPU number mapping 
* and the per-CPU profiling counter/multiplier 
*/ 


for (apicid = 0; apicid < NR CPUS; apicid++) { 
x86 apicid to cpulapicid] = -1; 
prof counter[apicid] = 1; 
prof oid multiplier[apicid] = 1; 
prof multiplier[apicid] = 1; 
) 


/* 

* Setup boot CPU information 

*/ 

smp store cpu info(0); /* Final full version of the data */ 
printk (“CPU%d: ^, 0); 

print cpu info(&cpu data[0]) ; 


/* 

* We have the boot CPU online for sure. 
*/ 

set bit(0, &cpu online map); 

x86 apicid to cpu[boot cpu id] = 0; 

x86 cpu to apicid[0] = boot cpu id; 
global irq holder - 0; 
current-?processor = 0; 

init_idle( ); 

smp tune scheduling( ) ; 


/* 


* If we couldnt find an SMP configuration at boot time, 
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869 * get out of here now! 
870 */ 

871 if (!smp found config) { 
872 printk(KERN NOTICE 


“SMP motherboard not detected. Using dummy APIC emulation. Wn); 
873 #ifndef CONFTG VISWS 


874 io apic irqs = 0; 

875 Hendif 

876 cpu online map = phys cpu present map = 1; 
877 smp num cpus = l; 

878 goto smp done; 

879 } 

880 


先 契 ” 些 准 备 工 作 。 前 面 捉 到 过 ， 对 内 存 的 高 速 缓冲 可 以 通过 一 个 “存储 类 型 及 范围 寄存 器 ” BD 
MTRR 加 以 分 区 管理 。 例 如 其 “个 区 问 采 用 “ 穿 透 ” 写 模式 ， 而 另 一 个 区 间 采 用 “ 回 写 ” 模 式 ， 再 另 
一 个 区 间 则 根本 就 不 缓冲 ， 等 等 。MTRR 首 不 是 非 用 不 可 的 ， 必 的 使 用 只 是 使 管理 更 加 精细 向 已 ， 所 
以 是 否 采 用 MTRR 是 个 编译 选择 项 。 但 是 ， 如 果 选 择 了 使 用 MTRR， 就 要 在 局 动 次 CPU 之 前 先 通过 
mtrr_init_boot_cpu( ) 完 成 对 主 CPU 的 MTRR 的 初始 化 。 此 外 ， 内 核 中 还 有 一 些 以 CPU 编号 为 目标 的 
数组 ， 其 中 x86 apicid to cpu[ ] 用 于 逻辑 CPU 号 到 物理 CPU 号 的 转换 ， 还 有 些 是 为 统计 信息 而 设 的 ， 
对 这 些 数 组 都 要 加 以 初始 化 。 然 后 ， 还 要 调用 smp_store_cpu_info( )， 从 CPU 收集 很 多 信息 ， 并 根据 
收集 的 信息 进行 一 些 必要 的 拘 作 。 这些 信 息 大 多 是 通过 指令 cpuid 收集 的 , 通过 这 条 指令 可 以 收集 到 许 
ZAX CPU 本 身 的 信息 。 例 如 ， 这 些 信息 中 不 但 包括 CPU 的 型 号 ， 还 包括 由 哪 “家 厂商 制造 。 如 果 
发 现 CPU 是 由 AMD 制造 的 ， 就 要 相应 地 调用 一 个 针对 AMD 处 理 器 特点 的 初始 化 函数 。 这 些 信息 存 
迪 在 一 个 cpuinfo x86 结构 数组 cpu_dataf ] 中 ,这 个 数组 中 的 内 容 可 以 通过 特殊 文件 系统 /proc 读 取 。 在 
/proc 目录 下 有 个 文件 /proc/cpuinfo， 对 这 个 特殊 文件 的 读 操 作 就 是 从 cpu_datal ] 中 读 出 的 。 读 者 不 妨 试 

"P "more /proc/cpuinfo”， 看 看 你 的 机 器 用 的 是 什么 CPU。 

E CPU 的 逻辑 号 总 是 0， 而 物理 号 则 在 一 个 全 局 量 boot cpu id 中 ， 数 组 x86. apicid to cpu[ ] 和 
x86 cpu to apicid[ ] 提 供 了 二 者 间 的 转换 。 内 核 中 还 有 个 全 局 量 smp found. config, tHE CPU 在 一 个 
bk EL setup_arch( ) 中 调用 find_smp_config( ), 根据 BIOS 提供 的 信息 设置 , 为 0 表示 系统 中 只 有 一 个 CPU， 
否则 就 是 多 CPU 系统 。 所 以 ， 如 果 此 时 smp_found_config 为 0， 就 结束 了 smp_boot_cpus( MPT: A 
TY RAK ETE Ph. 


[start_kernel( ) > smp_init( ) > smp_boot_cpus( )] 


881 /* 

882 * Should not be necessary because the MP table should list the boot 
883 * CPU too, but we do it for the sake of robustness anyway. 

884 */ 

885 if (!test bit(boot cpu id, &phys cpu present map)) { 

886 printk( weird, boot CPU (#%d) not listed by the BIOS. Wn", 

887 boot cpu id); 

888 phys epu present map |= (1 << hard, smp processor id( )); 

889 } 
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890 

891 /* 

892 * If we couldn’ t find a local APIC, then get out of here now! 
893 */ 

894 if (APIC INTEGRATED(apic version[boot cpu id]) && 

895 !test bit(X86 FEATURE APIC, boot cpu data. x86 capability)) { 
896 printk(KERN ERR "BIOS bug, local APIC #%d not detected!... Wn, 
897 boot cpu id); 

898 printk(KERN ERR 


^ 


forcing use of dummy APIC emulation. (tell your hw vendor) Wn"); 
899 #ifndef CONFIG VISWS 


900 io apic irgs = 0; 

901 Bendif 

902 cpu online map - phys cpu present map - 1; 
903 smp num cpus = l; 

904 goto smp done; 

905 } 

906 

907 verify local APIC( ); 

908 

909 /* 

910 * [f SMP should be disabled, then really disable it! 
911 */ 

912 if (!max epus) { 

913 smp found config = 0; 

914 printk(KERN INFO: 


“SMP mode deactivated, forcing use of dummy APIC emulation. W^); 
915 #ifndef CONFIG VISWS 


916 io apic irqs = 0; 

917 Hendif 

918 cpu online map = phys cpu present map = 1; 
919 smp num cpus = 1; 

920 goto smp done; 

921 j 

022 

923 connect bsp APIC( ); 

924 setup local APIC( ); 

925 

926 if (GET APIC ID(apic read(APIC ID)) != boot cpu id) 
927 BUG( ) ; 

928 


这 里 偿 有 一 系列 检验 。 其 中 第 894 TREE CPU 是 否 带 有 内 部 APIC。 对 十 SMP 结构 ，CPU 带 有 
内 部 APIC 是 个 必要 条 件 。 随 后 ， 又 对 主 CPU 的 内 部 APIC 进行 了 初始 化 。 限 于 篇 幅 ， 我 们 不 能 对 调 
用 的 子 程序 一 一 加 以 说 明了 ， 有 需 归 的 读者 可 以 结合 Intel 的 技术 资料 白 己 阅读。 这 里 的 
phys cpu present map 是 个 全 局 的 CPU 位 图 ， 由 主 CPU 在 setup arch( ) ( 见 第 10 340 中 通过 
get_smp_config( SE H MP_processor_info( )， 根 据 BIOS 提供 的 信息 设置 。 
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至 此 ， 所 有 的 准备 工作 都 已 完成 ， 下 面 就 要 逐个 地 启动 系统 中 的 次 CPU T. 


[start_kernel( ) > smp_init( ) > smp_boot_cpus( )| 


929 /* 

930 * Now scan the CPU present map and fire up the other CPUs. 

931 */ 

932 Dprintk ("CPU present map: %lx\n”, phys cpu present map); 

933 

934 for (apicid = 0; apicid < NR CPUS; apicid**) { 

935 /* 

936 * Don’ t even attempt to start the boot. CPU! 

937 */ 

938 if (apicid -- boot cpu id) 

939 continue; 

940 

941 if (! (phys cpu present map & (1 << apicid))) 

942 continue; 

943 if ((max cpus >= 0) && (max cpus <= cpucount-*1)) 

944 continue; 

945 

946 do boot cpu(apicid); 

947 

948 /* 

949 * Make sure we unmap all failed CPUs 

950 */ 

95] if ((x86 apicid to cpu[apicid] -- -1) && 

952 (phys cpu present map & (1 << apicid))) 

953 printk( phys CPU #%d not responding - cannot use it. m, 
apicid); 

954 } 

955 


内 核 中 有 个 全 局 量 max, epus, 表示 系统 中 有 和 多少 个 CPU 其 值 就 是 多 少 , 但 是 也 可 以 企 系 统 引 导 合 
令 行 中 指定 只 用 其 中 儿 个 。 此 外 ， 这 里 的 cpucount 是 个 计数 器 ， 初 值 为 0。 代 码 中 的 for 循环 根据 位 图 
phys. cpu. present, map 依次 对 各 个 “应 用 处 理 器 ”调用 do boot cpu( )， 为 其 投入 运行 作 好 准备 ， 并 旧 
动 其 运行 。 这 个 消 数 的 代码 在 arch/i386/kernel/smp.c 中 。 由 于 比较 长， 我 们 也 从 好 分 段 阐 读 。 


Lstart_kernel( ) > smp. init( ) > smp_boot_cpus( ) > do_boot_cpu( )] 


541 static void init do boot cpu (int apicid) 


542 { 

543 struct task struct *idle; 

544 unsigned long send status, accept status, boot status, maxivt; 
545 int timeout, num starts, j, cpu; 

546 unsigned long start eip: 

547 
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548 cpu — ++cpucount; 

549 /* 

550 * We can t use kernel_thread since we must avoid to 
551 * reschedule the child. 

552 */ 

553 if (fork by hand( ) < 0) 

554 panic( failed fork for CPU 9d^, cpu); 

555 

056 /* 

557 * We remove it from the pidhash and the runqueue 
558 * once we got the process: 

559 */ 

560 idle = init task.prev task; 

561 if (idle) 

562 panic(^No idle process for CPU %d”, cpu); 

563 

564 idle~>processor = cpu; 

565 x86 cpu to apicid[cpu] = apicid; 

566 x86 apicid to cpu[apicid] = cpu; 

567 idle-^has cpu = 1; /* we schedule the first task manually */ 
568 idle-^thread.eip = (unsigned long) start secondary; 
569 

570 del from runqueue (idle); 

571 unhash process(idle); 

572 init tasks[cpu] = idle; 

573 

574 /* start_eip had better be page aligned! */ 

575 start_eip = setup trampoline( ); 

576 

577 /* So we see what's up */ 

578 printk ("Booting processor %d/%d eip %lx\n”, cpu, apicid, start eip); 
579 stack start.esp = (void *) (1024 + PAGE SIZE + (char *) idle) ; 
580 








MAIRI, BE-SCPU CET PA BL Re, MURA SS TE SAAS TEL RR 
而 倒 会 造成 损害 。 所 以 ， 必 须 为 每 个 CPU 都 准备 卜 一 个 初始 进程 (线程 ;。 那 怕 这 个 初始 进程 本 身 实际 
上 并 没有 什么 事 要 做 ， 也 得 要 有 这 么 一 个 进程 才能 局 动 这 个 CPU。 而 CPU 一 旦 开始 了 初始 进程 的 运行 ， 
以 后 束 本 以 通过 进程 调度 从 系统 中 挑选 其 他 进程 运行 了 .所 以 ,第 - 件 要 做 的 事 就 是 通过 fork_by_handt( ) 
为 日 标 CPU 创 建 起 一 个 内 核 线程 。 


[start kernel( ) > smp. init( ) > smp boot cpus( ) > do boot cpu( ) > fork by. hand( )] 


493 static int | init fork by hand(void) 


494 { 

495 struct pt_regs regs; 

496 /* 

497 * don't care about the eip and regs settings since 
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498 * we ll never reschedule the forked task. 

499 * / 

500 return do fork (CLONE VM|CLONE PTD, 0, &regs, 0); 
501 } 


读者 对 do_fork() 已 经 不 陌生 了 。 这 里 的 第 一 个 参数 表示 fork 的 是 一 个 线程 ， 共 至 父 进程 ， 即 当前 
进程 的 用 户 空 间 ， 并 且 还 共享 父 进 程 的 进程 号 。 第 二 个 参数 本 米 应 该 是 用 户 空 间 堆 栈 的 起 始 地 址 ， 第 
四 个 参数 为 堆栈 的 大 小 ， 但 是 因为 创建 的 是 内 核 线 程 ， 所 以 这 两 个 参数 都 是 0. aah regs 的 其 体 
内 容 在 这 里 并 没有 实际 的 作用 。 创 建 了 所 需 的 内 核 线程 以 后 ，do_fork( ) 通 过 SET LINKS( )， 把 它 的 
task. struct 数据 结构 链接 在 就 绪 进 程 队列 中 init task 的 前 面 , 所 以 第 560 行 可 以 通过 init task 取得 指向 
这 个 task_struct 数据 结构 的 指针 idle. 

代码 中 的 568 行将 idle-»thread.eip 设置 成 指向 start_secondary( )， 这 是 所 有 的 次 CPU， 即 “应 用 处 
AS”, 完成 了 初始 化 以 后 进入 正常 调度 时 的 入 口 。 后 而 我 们 会 看 到 它 的 代码 。 然 后 , del_from_runqueue( ) 
和 unhash, process( ) 将 这 个 task. struct 结构 从 就 绪 进程 队列 和 尖 凑 队列 中 出 去 ， 并 把 它 的 指针 放 在 数组 
init tasks[ 1。 这 样 就 只 能 根据 CPU 序 写 找到 这 个 task, struct 结构 ， 而 不 能 像 常 规 的 进程 孝 样 通过 进 
称号 找到 它 了 。 读 者 后 面 会 看 到 ， 这 个 线程 就 起 给 定 CPU 的 “空转 ”进程 。 所 有 CPU 的 空转 进程 者 
具有 相同 的 进程 号 0, FFA AAT A AERA FU UR ASIA, If FB ZA init_tasks[ ] 的 各 个 元 素 指 向 
相应 的 task. struct 结构 。 

函数 start_secondary( ) 的 执行 有 个 前 提 ， 那 品 是 次 CPU 已 经 完成 了 其 本 身 的 初始 化 ， 已 进入 了 保 
护 模式 ， 并 开启 了 页 式 存 储 管 理 。 可 是 ， 次 CPU 本 车 的 这 些 初 始 化 涉及 其 内 部 寄存 些 的 操作 ， 因 而 具 
能 由 它 自己 完成 ， 上 上 CPU 无 法 包办 人 代替。 再说， 当主 CPU 启动 一 个 次 CPU 运行 的 时 候 ， 这 个 次 CPU 
一 开始 时 还 处 于 实地 址 模式， 根本 就 不 能 正确 地 执行 start_secondary( ) 的 代码 。 因 此 ，start_secondary( ) 
的 作用 其 实 还 只 是 中 转 性 质 的 ， 次 CPU 仍然 不 能 “一 步 登 入 ”进入 这 个 函数 中 执行 ， 而 要 先进 入 一 个 
初始 化 程序 startup_32( )， 完 成 CPU 本 身 的 初始 化 〈 见 第 10 章 )。 品 是， 即使 startup_32( ) 的 执行 也 还 
有 前 提 ， 所 以 次 CPU 在 受到 启动 之 初 甚至 还 不 能 直接 进入 初始 化 的 第 一 阶段 startup_32( )， 而 再 要 有 
块 “ 跳 板 ” 再 来 一 次 中 转 。 读 者 在 第 10 章 中 将 会 看 到 ， 主 CPU 在 进入 startup 32( ) 之 六 已 经 在 引导 畏 
助 程序 由 进行 了 一 些 准备 ， 包 括 进入 保护 模式 ; 次 CPU 辐 样 需 归 这 些 准 备 。 此 外 ， 次 CPU 在 进入 
startup 32( ) 之 前 应 该 把 %ebx 的 内 容 设 置 成 1 CTE CPU 则 为 0)。 显 然 ， 这 些 准 备 工作 都 要 在 进入 
startup_32( ) 之 前 完成 。 这 就 是 为 什么 次 CPU 需要 “跳板 ”而 主 CPU 却 并 不 需要 的 筷 因 。 这 里 575 行 
通过 setup_trampoline( ) 为 次 CPU 复制 好 一 块 跳板 ， 实 际 上 是 一 段 并 a TE, FARA BOR PHA 
HODES start eip 由 。 所 以 ，start_eip 中 的 地 址 是 启动 次 CPU 时 的 第 站 ， 龙 低级 阶段 。 而 
idle->thread.eip 中 的 地 址 则 是 次 CPU 在 完成 了 日 喘 的 急 始 化 ， 建 立 起 了 页 和 面 映 对 以 后 才 开 始 执 行 的 新 
起 点 ， 是 第 二 站 ， 是 高 级 阶段 。 函 数 setup trampoline( OWJ RITT. arch/i386/kemel/smpboot.c 中 ， 


[start kernel( ) > smp. init( ) > smp_boot_cpus( ) > do boot cpu( ) > setup trampoline( )| 


101 /* 

102 * Trampoline 80x86 program as an array. 
103 */ 

104 

105 extern unsigned char trampoline data [ ]; 
106 extern unsigned char trampoline end [ ]; 
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107 static unsigned char *trampoline base; 

108 

109 — /* 

110 * Currently trivial. Write the real-^protected mode 
111 * bootstrap into the page concerned. The calier 

112 * has made sure it's suitably aligned. 

113 */ 

114 

115 static unsigned long init setup_trampoline (void) 
116 { 

117 memcpy (trampoline base, trampoline data, trampoline end - trampoline data); 
118 return virt to phys(trampoline baso); 

119 ] 


这 段 程序 是 再 简单 不 过 的 了 ， 但 是 读者 … 定 会 对 这 “跳板 ”到 底 是 什么 感 兴趣 。 这 段 代 码 在 
arch/i386/kernel/trampoline.S P (trampoline 就 是 跳板 的 意志 ): 


37 ENTRY (trampoline data) 


38 r base =. 

39 

40 mov %cs, %ax 4 Code and data in the same place 

4] mov %ax, %ds 

42 

43 mov $1, %bx # Flag an SMP trampoline 

44 cli # We should be safe anyway 

45 

46 moyi $0xA5A5A5A5, trampoline data - r base 

4T i write marker for master knows we're running 
48 

49 lidt idt 48 - r base # load idt with 0, 0 

50 lgdt gdt 48 - r base # load gdt with whatever is appropriate 
51 

52 xor %ax, "ax 

53 inc %ax 8 protected mode (PE) bit 

54 ]msw Wax # into protected mode 

55 jmp flush instr 

56 flush_instr: 

57 1 jmp! $ KERNEL CS, $0x00100000 

58 # jump to startup 32 in arch/i386/kernel/head. S 
59 

60 idt 48: 

61 . word 0 # idt limit = 0 

62 . word 0, 0 8 idt base = OL 

63 

64 gdt 48: 

65 . word 0x0800 8 gdt limit = 2048, 256 GDT entries 

66 . long gdt table- PAGE OFFSET # gdt base = gdt (first SMP CPU) 
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67 
68 .globl SYMBOL NAME(trampoline end) 


我 们 在 这 里 不 深入 解读 这 段 程序 了 ， 读 者 不 妨 自己 加 以 研究 。 我 们 上 只 指出 三 点 ， 第 一 ，43 行 把 寄 
存 器 多 bx 的 内 容 设置 成 1， 表 示 这 是 一 个 次 CPU。 第 二 , 52~54 行将 控制 寄存 器 CRO 的 内 容 设置 成 1， 
就 是 把 CRO 中 的 PE 位 (最 低位 ， 为 1 表示 保护 模式 ) 设 置 成 1， 其 余 位 则 全 都 为 0， 这 样 就 使 CPU 进入 
了 保护 模式 , 但 是 页 式 存储 管理 则 尚未 启用 (最 高 位 PG 为 0)。 第 三 , 57 行 跳 转 到 代码 段 _ KERNEL CS 
中 地 址 为 0x00100000 的 地 方 。 污 者 在 第 2 章 中 看 到 ， 常 数 __KERNEL_CS 的 值 定义 为 0x10， 而 段 撕 
述 表 gdt_48 中 与 此 相应 的 段 描述 项 提供 的 基地 址 为 0， 所 以 跳 转 的 目标 是 0x00100000。 这 就 是 1MB 
处 ， 就 是 系统 在 引导 以 后 初始 化 程序 的 起 点 startup_32( )。 那 正 是 下 一 章 的 重点 之 一 。 

读者 可 能 还 有 个 问题 : 为 什么 要 把 这 段 代 码 复制 到 trampoline base FPE? 说 来 话 长 。 当 让 CPU 通 
过 APIC 局 动 次 CPU 运行 时 ， 要 把 一 个 局 动 地 址 发 送 给 次 CU。 可是， 由 于 APIC 的 内 部 结构 ， 实 际 
上 能 发 送 的 只 是 一 个 8 位 的 物理 页 面 号 ， 称 为 “向 量 ”。 这 样 ， 就 给 启动 地 址 加 上 了 限制 : 首先 ， 必 须 
与 页 面 边 界 对 齐 ; 其 次 ， 必 须 在 1MB 以 下 。 显 然 ， 这 里 的 trampoline_data( ) 是 不 满足 这 两 个 条 件 的， 
所 以 要 另行 在 IMB 以 下 分 配 一 个 物理 页 面 ， 把 trampoline data( ) 的 代码 复制 到 这 个 页 面 中 ， 这 就 是 
trampoline_base， 是 在 主 CPU 的 初始 化 阶段 通过 个 函数 smp_alloc_memory( ) 分 配 的 。 

EIFI] do_boot_cpu( ) 的 代码 中 ,579 行 把 次 CPU 执行 start_secondary( ) 时 的 堆栈 , 设置 在 其 task struct 
数据 结构 所 在 的 两 个 页 面 中 ( 详 见 第 3 章 )。 我 们 继续 往 下 阅读 。 


[start kernel( ) > smp_init( ) > smp. boot, cpus( ) > do_boot_cpu( )] 


581 /* 

582 * This grunge runs the startup process for 

583 * the targeted processor. 

584 */ 

585 

586 atomic set(&init deasserted, 0); 

587 

588 Dprintk( Setting warm reset code and vector. n^); 

589 

590 CMOS WRITE(Oxa, Oxf): 

591 local flush tlb( ) ， 

592 Dprintk( 1. W^) ; 

593 *((volatile unsigned short *) phys to virt(0x469)) = start eip >> 4; 
594 Dprintk (^2. \n”) ; 

595 *((volatile unsigned short *) phys to virt(0x467)) = start eip & Oxf; 
596 Dprintk (^3. \n”) ; 

597 


E CPU 在 启动 次 CPU 之 前 ， 先 要 通过 其 本 地 APIC 对 次 CPU 的 APIC 执行 一 次 初始 化 操作 ， 在 
此 期 间 还 把 一 个 全 局 量 init_deasserted 设 成 0， 到 完成 了 对 上 月 标 APIC 的 初始 化 以 后 ， 再 把 这 个 变量 设 
置 成 1。 此外， 上 述 start_eip 中 的 入 口 地 址 不 仪 用 于 本 次 初始 化 ， 还 用 寺 系 统 的 “ 热 启动 六 所 以 按照 
规定 将 其 写 入 物理 地 址 为 0x467 Al 0x469 处 。 
MÆ, TE CPU 可以 执行 给 定 次 CPU 的 启动 了 。 上 限于 篇 幅 ， 我们 在 下 面 将 不 深入 考察 对 APIC 寄存 
. 650 . 
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一 
器 的 棵 作 ， 有 兴趣 或 有 需要 的 读者 可 自己 加 以 研究 。 总 而 言 之 ， 这 上 段 代 码 通过 主 CPU 的 本 地 APIC 中 
的 .一些 寄存 器 ， 包 括 用 来 说 明 发 送 目标 的 寄存 器 APIC_ICR2 和 控制 /状态 寄存 器 APIC_ICR， 向 日 标 
CPU 的 APIC 发 出 一 些 信 和 号， 并 等 待 其 完成 。 


[start kernel( ) > smp_init( ) > smp_boot_cpus( ) > do, boot. cpu( )] 


598 /* 

599 * Be paranoid about clearing APIC errors. 
600 */ 

601 if (APIC INTEGRATED (apic_version[apicid])) { 
602 apic read around (APIC SPIV); 

603 apic write(APIC ESR, 0); 

604 apic read(APIC ESR); 

605 } 

606 

607 /* 

608 * Status is now clean 

609 */ 

610 send status - 0; 

611 accept status = 0; 

612 boot status = 0; 

613 

614 /* 

615 * Starting actual IPI sequence... 

616 */ 

617 

618 Dprintk (“Asserting INIT. m^) ; 

619 

620 /* 

621 * Turn INIT on target chip 

622 */ 

623 apic write around(APIC ICR2, SET APIC DEST FIELD(apicid)); 
624 

625 /* 

626 * Send IPI 

627 */ 

628 apic write around(APIC ICR, APIC INT LEVELTRIG | APIC INT ASSERT 
629 | APIC. DM. TNIT) ; 

630 

631 Dprintk("Waiting for send to finish... W^); 
632 timeout = 0; 

633 do { 

634 Dprintk(^*^); 

635 udelay (100) ; 

636 send status = apic_read(APIC_ICR) & APIC ICR BUSY; 
637 ) while (send status && (timeout++ < 1000)); 
638 
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639 mdelay (10) ; 

640 

641 Dprintk(’Deasserting INIT. n^) ; 

642 

643 /* Target chip */ 

644 apic write around(APIC ICR2, SET APIC DEST FIELD(apicid)); 
645 

646 /* Send IPI */ 

647 apic write around(APIC ICR, APIC INT LEVELTRIG | APIC DM INIT) ; 
648 

649 Dprintk( Waiting for send to finish... \n”): 

650 timeout = 0; 

651 do { 

652 Dprintk (^*^); 

653 udelay (100); 

654 send status = apic read(APTC ICR) & APIC ICR BUSY; 

655 } while (send status && (timeout-* < 1000)): 

656 

657 atomic set(&init deasserted, 1); 

658 


发 出 的 信号 须 符合 一 定 的 顺序 ， 例 如 上 面 的 628 行 中 先 把 控制 位 APIC INT. ASSERT 设 成 !， 然 
后 在 下 面 的 647 行 再 把 它 设 成 0。 得 次 写 入 控制 /状态 寄存 器 APIC_ICR 以 后 ， 都 要 从 这 个 寄存 如 污 回 
来 ， 并 等 待 其 状态 位 APIC_ICR_BUSY 变 成 0。 不 过 ， 等 待 也 不 能 是 元 殷 期 的 等 待 ， 所 以 还 要 通过 计 
数 加 以 限制 。 


[start_kernel( ) > smp_init( ) > smp_boot_cpus( ) > do. boot, cpu( )] 


659 /* 

660 * Should we send STARTUP IPIs ? 

661 x 

662 * Determine this based on the APIC version. 
663 * If we don’t have an integrated APIC, don’t 
664 * send the STARTUP IPls. 

665 */ 

666 if (APIC INTEGRATED(apic version[apicid])) 
667 num starts = 2; 

668 else 

669 num starts = 0: 

670 

671 /* 

672 * Run STARTUP IPI loop. 

673 */ 

674 Dprintk("#startup loops: %d.\n”, num starts): 
675 

676 maxlvt = get maxlvt( ); 

677 
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for (j = 1; j & num starts; jt+) 1 


Dprintk("Sending STARTUP #%d. \n”, j); 
apic read around(APIC SPIY) ; 

apic write(APIC ESR, 0); 

apic read(APIC ESR); 

Dprintk("After apic write. n^); 


/* 
* STARTUP IPI 
*/ 


/* Target chip */ 
apic write around(APIC ICR2, SET APIC DEST FIELD(apicid)); 


/* Boot on the stack */ 

/* Kick the second */ 

apic write around(APIC ICR, APIC DM STARTUP 
' (start eip >> 12)); 


/* 

* Give the other CPU some time to accept the IPI. 
*/ 

udelay (300) ; 


Dprintk("Startup point 1. \n"); 


Dprintk("Waiting for send to finish... n^); 
timeout = 0; 
do { 
Dprintk ("+") ; 
udelay (100) ; 
send status = apic read(APIC_ICR) & APIC TCR BUSY; 
) while (send status && (timeouti+ < 1000)); 


/* 
* Give the other CPU some time to accept the IPI. 
*/ 
udelay (200) ; 
/* 
* Due to the Pentium erratum 3AP. 
*/ 
if (maxlvt > 3) | 
apic read around (APTC_SPIV) ; 
apic write(APIC ESR, 0); 
} 
accept status = (apic_rcad(APIC ESR) & OxEF) ; 
if (send status |! accept status) 
break; 
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726 } 
最 后 ， 将 start_eip 中 的 初始 化 程序 入 口 地 址 发 送 给 目标 CPU， 并 等 待 目标 CPU IN. EER 
的 694 和 695 行将 start_eip 中 的 启动 地 址 写 入 APIC 的 控制 寄存 器 APIC_ICR。 这 个 地 址 是 物理 地 址 ， 


在 写 入 寄存 器 前 先 右 移 了 12 位 ， 因 为 启动 地 址 一 定 是 与 页 面 边 界 对 齐 的 ， 其 低 12 ERO. RH 
面 ， 局 动 地 址 一 定 在 1MB 以 下 ， 其 最 高 12 位 也 一 定 是 0， 所 以 右 移 以 后 真正 要 发 送出 去 的 是 8 位 。 


[start_kernel( ) > smp_init( ) > smp_boot_cpus( ) > do boot, cpu( )] 


727 Dprintk (“After Startup. \n”); 

728 

729 if (send status) 

730 printk( APIC never delivered???\n’) ; 

131 if (accept status) 

732 printk (“APIC delivery error (%lx).\n”, accept status); 
733 

734 if (!send status && !accept status) { 

735 /* 

736 * allow APs to start initializing. 

737 */ 

738 Dprintk (“Before Callout 9d. \n”, cpu); 

739 set bit(cpu, &cpu callout map); 

740 Dprintk("After Callout %d. \n”, cpu); 

741 

742 /* 

743 * Wait 5s total for a response 

744 */ 

745 for (timeout = 0; timeout < 50000; timeout-4) ( 
746 if (test bit(cpu, &cpu callin map)) 

747 break; /* It has booted */ 

748 ude lay (100) ; 

749 } 

750 

751 if (test bit(cpu, &cpu callin map)) 1 

152 /* number CPUs logically, starting from 1 (BSP is 0) */ 
753 Dprintk (OK. \n”) ; 

754 printk(’CPU%d: ^", cpu); 

155 print cpu info(&cpu data[cpul]); 

756 Dprintk (“CPU has booted. Wn); 

757 } else { 

758 boot status = 1; 

759 if (*((volatile unsigned char *)phys to virt (8192)) 
160 == QxAb) 

761 /* trampoline started but...? */ 

762 printk (“Stuck ??\n”); 

763 else 

764 /* trampoline code not run */ 
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printk(/Not responding. W^); 
Rif APIC DEBUG 
inquire remote apic(apicid) ; 
#endif 
} 
} 
if (send status || accept status || boot status) { 
x86 cpu to apicid[cpu] = -1; 
x86 apicid to cpulapicid] = -1; 
cpucount--; 


} 


/* mark “stuck” area as not stuck */ 
*((volatile unsigned long *)phys to virt(8192)) = 0; 


} 


次 CPU 受到 启动 以 后 ， 首 先进 入 上 述 的 “跳板 ” 从 那里 起 跳 ， 进 入 startup_32( )， 即 初始 化 的 第 
一 阶段 ( 详 见 第 10 章 )。 在 startup_32() 中 , 由 于 次 CPU 的 寄存 回 %ebx 中 的 内 容 为 1, 就 可 以 跟 主 CPU 
区 分 开 来 ， 因 为 有 些 操作 是 共同 的 ， 而 又 有 些 则 只 由 主 CPU 完成 。 完 成 了 CPU 本 身 初始 化 以 后 ， 次 
CPU 就 通过 函数 调用 进入 initialize_secondary()〈 见 第 10 章 ， 代 码 在 arch/i386/kernel/smpboot.c 中 ): 


[startup_32( ) > initialize_secondary( )] 


468 
469 
470 
ATI 
412 
473 
474 
475 
476 
477 
478 
479 
480 
481 
482 
483 
484 
485 
486 


/* 
* Everything has been set up for the secondary 
* CPUs - they just need to reload everything 
* from the task structure 
* This function must not return. 
*/ 
void | init initialize secondary (void) 
{ 
/* 
* We don’t actually need to load the full TSS, 
* basically just the stack pointer and the eip. 


*/ 


asm volatile( 
^movl %0, %%esp\n\t” 
" imp *%1” 


:"r" (current thread. esp), "r" (current->thread. eip)); 


} 


次 CPU 在 starmp_32() 收 ， 将 自己 的 堆栈 设置 在 主 CPU 为 其 准备 的 地 方 ， 从 而 进入 了 自己 的 上 下 


文 ， 这 就 是 主 CPU 为 之 准备 好 的 空转 进程 。 我 们 在 前 面 看 到 ， 这 个 进程 的 thread.eip 指向 
start_secondary( )， 所 以 483 行 的 jmp 指令 就 使 CPU 进入 了 这 个 函数 。 同 时 ，482 行 已 经 重新 设置 了 堆 
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栈 指针 ， 所 以 实际 上 永远 不 会 从 initalize secondary( REIT e K% start_secondary( ) 的 代码 在 
arch/i386/kernel/smpboot.c FP: 


445 /* 

446 * Activate a secondary processor. 

447 */ 

448 int | init start secondary (void *unused) 

449 ( 

450 /* 

451 * Dont put anything before smp callin( ), SMP 
452 * booting is too fragile that we want to limit the 
458 * things done here to the most necessary things. 
454 */ 

455 cpu init( ); 

456 smp callin( ); 

457 while (latomic read(&smp commenced)) 

458 rep nop( ); 

459 /* 

460 * low-memory mappings have been cleared, flush them from 
461 * the local TLBs too. 

462 */ 

463 local flush tlb( ); 

464 

465 return cpu idle( ); 

466  ] 


对 次 CPU 的 基本 初始 化 是 在 startup 32( ) 中 完成 的 ， 但 是 进一步 的 初始 化 则 放 在 进入 
start_secondary( ) 以 后 才 进 行 ， 那 就 是 cpu_init( )。 这 个 孔 数 不 仅 次 CPU HR. X CPU 也 归 在 初始 化 
的 第 二 阶段 由 调用 ， 其 代码 可 参看 第 10 章 中 的 “系统 初始 化 〈 第 二 阶段 )” 0D. 5 startup 320 ) 中 的 
初始 化 相 比 ， 这 个 函数 主要 是 为 进程 调度 作 准备 。 此 外 ， 在 这 个 函数 中 还 将 全 局 的 位 图 cpu_initialized 
中 与 当前 CPU 对 应 的 标志 位 设 成 1， 让 主 CPU 知道 这 个 次 CPU 的 初始 化 已 经 完成 了 。 
执行 完 cpu_init( ) 以 后 ， 次 CPU 的 初始 化 就 完成 了 。 这 里 还 要 说 明 一 下 ， 我 们 现在 是 在 讲述 其 中 
一 个 次 CPU 的 运行 ， 一 个 次 CPU 的 上 下 文 。 主 CPU 在 smp_boot_cpus( ) 的 一 个 for 循环 中 ， 依 次 对 系 
统 中 的 各 个 次 CPU 调用 do_boot_cpu( )， 启 动 其 运行 。 每 启动 :个 次 CPU， 这 个 CPU 就 会 进入 
start secondary( )。 但 是 ， 主 CPU 和 次 CPU 之 间 需 要 一 些 通信 手段 来 建立 起 若干 同步 点 ， 以 取得 互相 
的 同步 和 协调 。 例 如 ， 主 CPU 需要 确认 刚 被 启动 的 次 CPU 已 经 到 达 start_secondary( ) 以 后 ， 才 能 启动 
下 一 个 次 CPU。 而 日, 不 仪 主 CPU 和 个 别 的 次 CPU 之 间 需 要 同步 , 所 有 的 次 CPU 最 后 也 要 步调 一 致 
基本 上 在 同一 时 间 进 入 cpu_idle( )。 具 体 的 同步 有 有 下面 这 么 um. 
d) 全 局 量 init_deasserted。 在 do boot cpu( ) 中 ， 主 CPU 在 对 次 CPU 的 APIC 进行 初始 化 前 ， 先 
将 init_deasserted 设 成 0 (586 行 )， 完 成 了 以 后 再 将 这 个 变量 设 成 1 (657 行 )。 次 CPU 受到 
局 动 、 通 过 start_secondary( ) 进 入 smp_callin( ) 以 后 ， 就 在 - while 循环 中 等 待 这 个 变量 成 
为 1， 从 而 保证 次 CPU 不 会 在 此 期 间 进 行 对 APIC KHE. 

(2) 全 局 量 位 图 cpu callout map. 1X CPU 在 smp callin( ) 中 还 此 等 待 这 个 位 岁 中 的 对 应 位 变 成 
1( 最 多 等 待 2 秒 )。 主 CPU MIZE do_boot_cpu( ) 中 (739 行 ) 将 目标 CPU 的 对 应 位 设 成 1。 
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(3) 全 局 量 位 图 cpu_callin_map。 主 CPU Æ do. boot cpu( )"P In] CPU 发 出 启动 命令 以 后 ， 就 在 
一 个 定时 的 循环 中 测试 目标 CPU 在 这 个 位 图 中 的 对 应 位 ， 等 竺 来自 目标 CPU 的 回答 (745 一 
749 行 )。 次 CPU 则 在 smp_callin( ) 结 束 之 前 将 位 图 中 的 对 应 位 设置 成 1。 主 CPU 只 有 测试 到 
这 一 位 变 成 1， 或 者 超过 了 预定 的 时 间 ， 才 从 do_boot_cpu( ) 返 回 。 

(4) 全 局 量 smp_commenced。 所 有 次 CPU 在 进入 cpu_init( ) 之 前 都 要 等 待 这 个 变量 成 为 1， 这 个 
变量 将 使 所 有 的 次 CPU 都 站 到 了 同一 条 起 跑 线 上 。 

函数 smp_callin ( ) 的 代码 在 arch/i386/kernel/smpboot.c FH: 


Lstart_secondary( ) > smp. callin( )] 


349 void __init smp callin (void) 


350 

351 int cpuid, phys_id; 

352 unsigned long timeout; 

353 

354 /* 

355 * If waken up by an INIT in an 82489DX configuration 

356 * we may get here before an INIT-deassert IPI reaches 
357 * our local APIC. We have to wait for the IPI or we'll 
358 * lock up on an APIC access. 

359 */ 

360 while (!atomic read(&init deasserted)); 

361 

362 /* 

363 * (This works even if the APIC is not enabled.) 

364 */ 

365 phys id = GET APIC ID(apic read(APTC ID)); 

366 cpuid = current—>processor: 

367 if (test and set bit(cpuid, &cpu online map)) { 

368 printk (“huh, phys CPU#%d, CPU#%d already present??\n”, 
369 phys id, cpuid); 

370 BUG( ) ; 

371 } 

372 Dprintk (CPUR%d (phys TD: 9d) waiting for CALLOUT\n”, cpuid, phys id); 
373 

374 /* 

375 * STARTUP IPIs are fragile beasts as they might sometimes 
376 * trigger some glue motherboard logic. Complete APIC bus 
377 * silence for 1 second, this overestimates the time the 
378 * boot CPU is spending to send the up to 2 STARTUP IPIs 
379 * by a factor of two. This should be enough. 

380 */ 

381 

382 /* 

383 * Waiting 2s total for startup (udelay is not yet working) 
384 */ 
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385 
386 
387 
388 
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391 
392 
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394 
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399 
400 
401 
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406 
407 
408 
409 
410 
411 
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417 
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419 
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425 
426 
421 
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430 
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432 
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timeout = jiffies + 2*HZ; 
while (time before(jiffies, timeout)) { 
/* 
* Has the boot CPU finished it's STARTUP sequence? 
*/ 
if (test bit (cpuid, &cpu callout map)) 
break; 


j 


if (!time before(jiffies, timeout)) | 
printk("BUG: CPUXd started up but did not get a callout!\n’, 
cpuid) ; 
BUG( ) ; 
} 


/* 
* the boot CPU has finished the init stage and is spinning 
* on callin map until we finish. We are free to set up this 
* CPU, first the APIC. (this is probably redundant on most 
* boards) 


*/ 


Dprintk (“CALLIN, before setup local APIC( ). ^) ; 
setup local APIC( ); 


sti( ); 


#ifdef CONFIG MTRR 


/* 
* Must be done before calibration delay is computed 
*/ 


mirr init secondary cpu ( ); 


tendi f 


/* 

* Get our bogomips. 

*/ 

calibrate delay( ); 

Dprintk("Stack at about %p\n”, &cpuid) ; 


/* 
* Save our processor parameters 
*/ 


smp store cpu info(cpuid); 


/* 
* Allow the master to continue. 
*/ 
set bit(cpuid, &cpu callin map); 
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433 

434 /* 

435 * Synchronize the TSC with the BP 
436 */ 

437 if (cpu has tsc) 

438 synchronize tsc ap( ); 

439  ] 


将 这 段 代 码 与 前 面 smp_boot_cpus() 开 头 处 的 代码 作 一 比较 ， 就 可 以 看 出 这 时 进行 的 一 些 操作 与 主 
CPU 在 启动 次 CPU 之 前 的 操作 相似 ， 实 际 上 也 是 CPU 初始 化 的 一 部 分 。 这 里 第 421 行 调 用 
calibrate_delay( ) 测 试 CPU 的 运算 速度 ， 主 CPU 则 在 初始 化 的 第 二 阶段 在 start. kernel( ) 中 调用 这 个 表 
数 ( 见 第 10 章 )。 这 个 函数 测算 出 CPU 的 “BogoMIPS”， 大 致 上 反映 了 以 “每 秒 百 万 条 指令 ”为 单位 
的 运算 速度 。 有 兴趣 的 读者 不 妨 自 己 读 一 下 。 

至 此 ,次 CPU 已 经 基本 上 上 完成 了 初始 化 ， 所 以 在 432 行 把 全 局 量 cpu_callin_map 中 代表 着 本 CPU 
的 标志 位 设 成 1， 让 主 CPU 知道 。 最 后 ， 如 果 次 CPU 带 有 “时 间 印 记 计 数 器 ”TSC 则 还 要 通过 
synchronize_tsc_ap( ) 对 其 TSC 进行 初始 化 。 所 谓 TSC 是 “Time Stamp Count” 的 缩写 ， 这 是 一 个 64 位 
的 计数 器 ， 每 来 一 个 时 钟 脉 冲 就 加 ]。 由 于 是 64 位 计数 器 ， 其 数值 十 年 以 内 不 会 重复 ， 所 以 可 以 用 它 
的 值 作为 时 间 印 记 。 

各 个 次 CPU 在 完成 了 smp callin( ) 的 执行 以 后 ， 就 进入 了 一 个 无 限 循环 ， 等 待 一 个 全 局 景 
smp commenced 变 成 1， 就 好 像 等 待 “ 起 跑 ” 命 令 一 样 ， 要 等 到 了 命令 才 起 跑 进 入 cpu_idle, ). 


回 到 主 CPU 的 运行 中 。 主 CPU 在 934—954 行 的 for 循环 中 启动 了 所 有 的 次 CPU 以 后 ， 最 后 还 有 
几 件 事 要 做 ,我们 继续 往 下 看 (arch/i386/kernel/smpboot.c)。 


[start kernel( ) > smp. init( ) > smp_boot_cpus( )] 


956 /* 
957 * Cleanup possible dangling ends... 
958 */ 


959 #ifndef CONFIG VISWS 


©». =. 8 =m y; 


974 #endif 

975 

976 /* 

977 * Aliow the user to impress friends. 

978 */ 

979 

980 Dprintk( Before bogomips. \n”) ; 

981 if (!epucount) { 

982 printk(KERN ERR "Error: only one processor found. m^); 
983 | else | 

984 unsigned long bogosum - 0; 

985 for (cpu = 0; cpu < NR CPUS; cput+) 

986 if (cpu online map & (1<<cpu)) 

987 bogosum += cpu data[cpu]. loops per. jiffy; 
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988 printk(KERN INFO "Total of %d processors activated (%lu. %021u BogoMLPS) .An ， 
989 cpucounttl, 
990 bogosum/ (500000/HZ) , 
991 (bogosum/ (5000/HZ) ) 100) ; 
992 Dprintk( Before bogocount setting activated=1. \n”): 
993 } 
994 smp num cpus = cpucount + l; 
995 
996 if (smp b stepping) 
997 printk (KERN WARNING 
“WARNING: SMP operation may be unreliable with B stepping processors. \n"); 
998 Dprintk(^Boot done. \n”) ; 
999 
1000 #ifndef CONFIG VISWS 
1001 /* 
1002 * Here we can be sure that there is an IO-APIC in the system. Let's 
1003 * go and set it up: 
1004 */ 
1005 if (!skip ioapic setup) 
1006 setup IO APIC( ) ; 
1007 Hendif 
1008 
1009 /六 
1010 * Set up all local APIC timers in the system: 
1011 */ 
1012 setup APIC clocks( ); 
1013 
1014 /* 
1015 * Synchronize the TSC with the AP 
1016 */ 
1017 if (cpu has tsc && cpucount) 
1018 synchronize tse bp( ); 
1019 
1020 smp done: 
1021 zap low mappings( ); 
1022 |] 


首先 是 显示 整个 系统 的 这 算 能 力 ， 即 各 个 CPU 运算 能 力 的 总 和 和 。 然 后 通过 setup IO. APIC( ) 对 外 
部 APIC 进行 初始 化 ， 这 个 函数 的 代码 丰 arch\i386\kernel\io_apic.c 中 ， 我 们 只 能 把 筷 留 给 恋 音 。 接 者 是 
对 各 内 部 APIC 中 冠 时 器 ， 即 时 钟 中 断 源 的 设置 ， 读 者 己 经 华 采 面 看 过 这 个 前 数 的 代码 。 

最 后 ,, 道 过 zap_low_mappings( OH A ARRSH H PIRE, HU 3GB PA PS Box lata ba. HEH 
下 项 是 为 CPU FARR UY pr] Se i VEU. VERAS 10 部 对 系统 初始 化 第 一 阶段 的 叙述 。 对 
于 单 CPU WRA, -E CPU 转 入 了 页 式 映 射 , 这 些 日 录 项 就 可 以 清除 了 .。 可 是 在 SMP 结构 的 系统 中 ， 
WW SAK) CPU 都 转 入 碳 式 映 射 以 后 才能 清除 。 和 而 现在 是 时 候 了 。 清 除了 低 区 映射 以 后 ， 
swapper_pg_dir 中 就 只 剩 下 系统 空间 的 映射 ， 所 以 这 个 页 面 映射 日 录 将 用 于 所 有 的 内 核 线程 。 同 时 ， 这 
个 日 录 也 是 所 有 进程 的 映射 日 录 的 基础 ， 进 程 的 映射 日 录 的 系统 空间 部 分 就 是 从 swapper pg dir 复制 
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已 在 等 待 最 后 的 起 跑 命 令 了 。 于 是 , © CPU 通过 smp commence( ) 把 全局 量 smp_commenced 设置 成 1， 
问 所 有 的 次 CPU 发 出 的 起 跑 命 令 。 这 个 函数 的 代码 在 arch/i386/kernel/smpboot.c FP: 


[start kernel( ) > smp. init( ) > smp_commence( )] 


164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 


We 

* Architecture specific routine called by the kernel just before init is 
* fired off. This allows the BP to have everything in order [we hope]. 

* At the end of this all the APs will hit the system scheduling and off 
* we go. Each AP will load the system gdt' s and jump through the kernel 
* init into idle( ). At this point the scheduler will one day take over 
* and give them jobs to do. smp callin is a standard routine 


* we use to track CPUs as they power up. 


*/ 


static atomic t smp commenced = ATOMIC INTT(0) ; 


void | init smp commence (void) 
{ 
/* 
* Lets the callins below out of their loop. 
*/ 
Dprintk (“Setting commenced=1, go go go\n’); 


wmb( ) ; 


atomic set(&smp commenced, 1) ; 


这 里 的 wmb( ) 是 个 内 存 写 操作 路 障 。 将 smp commenced 设 成 1 以 后 ， 在 start. secondary( ) 中 待命 


的 各 个 次 CPU 就 随 之 结束 了 457 行 的 while 循环 而 进入 cpu idle( )。 表 向 上 这 是 个 图 数 调用 ， 但 是 实 
际 上 永远 个 会 从 奢 时 返回 了 ,因为 cpu._idle( H FEEDER, 只 此 系统 中 有 就 绪 进程 在 等 符 执 行 ， 
就 调度 其 运行 ， 否 则 就 使 CPU 进入 硬件 睡眠 状态 ， 直 至 有 中 断 发 生 时 才 恢 复 过 行 。 到 那 时 候 ， 既 然 友 
生 了 中 断 ， 就 又 有 机 会 调度 了 。 我 们 在 下 一 章 中 还 要 同 到 这 个 函数 代码 中 。 
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10.1 系统 引导 过 程 概述 


现代 计算 机 系统 的 内 存 都 是 “挥发 性 ”的 : 一 日 关机 断 电 ， 存 储 在 内 存 中 的 信息 、 连 同 操 作 系 统 
本 身 的 映 象 就 丢失 了 。 所 以 ， 必须 把 操作 系统 (内 核 ) 的 映 象 存储 在 某 种 不 挥发 的 介质 中 ， 使 得 开机 加 电 
时 有 个 从 不 挥发 介质 装 入 操作 系统 、 并 转 入 运行 的 映 象 过 程 ， 这 个 过 程 就 称 为 “引导 ”(bootstrap， 
BK boot), 也 称 为 “ 自 举 ”。 这 里 , 所 请 个 挥发 介质 通常 是 指 而 磁盘 或 软盘 , 但 也 可 以 是 EPROM 或 Flash 
存储 器 ， 还 可 以 是 网 络 中 别 的 节点 。 一 般 ， 从 EPROM 或 Flash 存储 颇 装 入 眉 象 是 很 简单 的 ， 因 为 这 些 
存储 器 本 来 就 是 内 存 的 一 部 分 ， 访 问 这 些 存 储 器 与 访问 普通 的 内 存 空间 并 无 不 同 。 相 比 之 下， 从 磁 得 
等 外 部 设备 装 入 操作 系统 映 象 就 复杂 多 了 。 上 所 以 一 般 说 的 “引导 ”是 指 从 磁盘 上 引导 。 我 们 在 本 节 中 
将 注意 力 集 中 企 从 硬 松 引导 ， 因 为 这 是 最 为 典型 的 ， 另 一 方面 ， 理 解 了 怎样 从 硬 才 引导 ， 也 就 不 难 理 
解 怎样 从 别 的 介质 引导 了 。 

可 想 而 知 ， 要 在 开机 时 从 不 挥发 介质 装 入 操作 系统 的 映 象 ， 系 统 就 得 要 在 一 开机 时 就 具有 一 定 的 
智能 ， 也 就 是 一 开机 以 后 CPU 就 能 执行 一 段 程序 ， 这 段 程序 木 身 必须 存储 在 作 为 系统 内 存 一 部 分 的 
EPROM, Flash 等 不 挥发 存储 器 中 ， 而 且 必 须知 道 怎 样 才 能 从 不 挥发 介质 装 入 操作 系统 的 肌 象 。 实 际 
上 ， 各 种 CPU 都 设计 成 一 可 电 以 后 就 从 其 个 特殊 的 地 址 开始 执行 指令 ， 所 以 这 些 不 挥发 存储 器 就 放 在 
这 个 位 置 上 。 以 i386 CPU 为 例 ， 加 电 或 “总 清 ”(reset) 以 后 CPU 处 于 实地 址 模式 ， 并 旦 代 伺 段 寄 存 器 
CS 的 内 容 为 0xffff， 而 取 指 令 指针 (寄存 器 )IP 的 内 容 则 为 0， 也 就 是 说 ， 从 线性 地 址 0xffff0 开始 取 第 
一 条 指令 。 所 以 采用 1386 CPU 的 系统 在 这 个 位 置 上 必须 有 不 挥发 存储 器 。 

那么 ， 这 有 段 程 序 要 有 多 大 了 昵 ? 这 就 要 看 其 体 的 设计 了 。 在 早期 的 计算 机 中 这 段 程序 … 般 都 很 小 ， 
例如 2K 字 和 节 或 者 更 小 ， 甚 们 只 有 儿 条 指令 (记得 70 年 代 中 美 建交 后 进入 中 国 的 NOVA 机 ,由 此 而 来 的 
国产 机 名 为 DJS-130， 操 作 系 统 为 RTFOS， 引 导 程 序 只 有 13 条 指令 ， 当 时 称 初始 引导 13 A, TRAE 
13 条 。13 条 指令 块 行 结果 是 通过 光电 读 入 机 把 存放 在 穿孔 纸 常 上 的 RTOS 执行 码 装 入 内 存 )}。 这 是 因 
为 早期 的 EPROM 或 PROM 的 容量 都 很 小 ， 并 且 其 口 的 和 功能 也 很 单一 。 可 是 ， 这 么 短 的 -- 段 程序 怎 
么 能 把 操作 系统 的 映 象 从 磁盘 上 读 进来 呢 ? 我 们 不 妨 这 样 想 : 如 果 要 把 操作 系统 的 映 象 作为 “个 文件 
读 进 来 ， 那 么 这 段 程序 就 要 能 支持 相应 的 文件 系统 ， 还 要 加 上 相应 的 设备 驱动 称 序 。 一 般 而 言 ， 除 十 
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分 简单 的 文件 系统 以 外 ， 这 是 不 现实 的 。 再 说 ， 文 件 系统 又 有 许多 种 ， 无 论 如 们 也 不 能 使 一 小 段 程序 
同时 支持 好 几 种 文件 系统 。 所 以 ， 只 能 绕 过 文件 系统 ， 甚 全 绕 过 设备 驱动 的 般 形式 ， 而 把 操作 系统 
映 象 的 谈 入 作为 一 个 特例 处 理 ， 在 设备 驱动 的 后 层 解 决 问题 。 例 如 ， 费 是 从 一 开始 就 知道 操作 系统 的 
映 象 表 定 在 磁 信 上 开头 10 个 连续 的 扇 区 中 , 这 就 比较 简单 了 .如 采 不 能 肯定 操作 系统 的 映 象 一 定 是 10 
SA, Woe EAT 10 MEEK. ABER ERMA A eR AA 
BET AREER AA HE WE” SEE, ie pe EE “ER” f RE A, AA eI Set 
RSP mE MA, SETS AA. Glen, AARP, RT 8I SCTERIBUS 
fy) AE RE, BTA Pee EA TT Y: 而 有 些 文件 系统 则 要 采用 位 图 的 
AK, GR BIRT AIS SA, WO. WIR RR) HE SEE Piu. PW s Ee AR Se J] ITS ERR 
lki: 而 个 同 CPU 的 指令 系统 也 人 不同; 等 等 ， 等 等， 不 一 而 足 。 所 以 ， 除 大 才 映 象 的 “地 埋 ” 信 息 以 
外 ， 还 需 此 在 这 个 固定 的 位 置 上 存放 一 段 适用 于 具体 操作 系统 的 可 执行 程序 作为 补 公 。 套 用 项 代 “ 面 


象 ”， 其 中 既 包 托 了 数据 ， 也 包括 了 运用 这 些 数 据 的 程序 ， 当 然 ， 那 时 候 还 没有 “对 象 ” 这 人 么 个 概念 ， 
而 是 很 忆 然 地 把 这 个 厅 区 称 为 “引导 而 区 ”， 通 痢 部 是 磁盘 上 的 第 个 民 区 。 而 EPROM 中 的 程序 ， 则 
因为 共 作 用 企 于 从 磁盘 读 入 引导 大 区 ， 因 而 常常 称 为 初始 引导 程序 。 初 始 引导 程序 是 “中 性 ”的 ， 与 
有 具体 的 操作 系统 或 文件 格式 无 关 ， 它 只 是 从 磁盘 上访 入 引导 扁 区 ， 然 后 把 引导 肩 区 的 开头 当 作 -有 段 程 
序 的 起 点 ， 使 CPU 转 入 这 段 程 序 。 引 叶 扇 区 的 内 容 则 取决 十 具体 的 操作 系统 ， 也 可 能 还 进 一 滑 取决 二 
文件 格式 。 关 然 ， 引 导 扇 区 只 是 一 个 扇 区 ， 凤 512 字 当 ， 能 够 容纳 的 信息 和 代码 是 很 和 有 有限 的 ， 所 以 常 
常 偿 得 要 由 引导 扇 区 的 程序 先 装 入 其 他 若 十 扇 区 ， 再 由 这 些 房 区 中 的 程序 和 数据 协 阿 完成 整个 引导 过 
程 。 

有 时 候 , 也 可 以 先 通过 引导 出 区 读 入 一 个 作为 中 间 步 又 的 工具 性 程 厅 (而 不 是 操作 系统 映 象 )， 常 称 
为 “引导 阔 入 程序 ”， 再 出 引导 狗 入 程序 站 入 操作 系统 肌 象 。 例 如 LILO We Linux 的 引导 装 入 程序 。 
从 概 亿 上 说 引导 装 入 程序 与 EPROM 中 的 急 始 引导 程序 并 无 不 同 ， 只 是 体积 更 大 ， 荔 能 更 为 复 杀 。 例 
如 LILO 就 可 以 让 用 户 从 磁盘 上 的 多 个 (并 用 可 以 是 多 种 ) 操 作 系 统 遇 和 象 中 有 有 选 搓 地 引导 。 另 方面 ,由 
于 引导 装 入 程序 的 功能 较 强 ， 也 有 有利 二 减 小 对 操作 系统 映 旬 在 磁 册 上 存储 位 置 和 方式 的 限制 。 实 际 上 ， 
除了 从 软骨 引导 以 外 ，Linux 一 般 者 是 通过 LILO 引导 的 。 

随 着 技术 的 发 展 ， 像 EPROM … 炎 存储 器 件 的 容量 愈 米 全 大， 为 加 强 系 统 初 始 引导 程序 提供 了 条 
件 ， 所 以 逐 潮 往 里 面 加 入 了 如 “加 电 日 榨 尖 “系统 配置 ”一 类 的 功能 ，( 初 始 的 ) 人 机 交 竺 界面 也 逐渐 得 
到 改善 。 到 Microsoft 为 IBM PC 机 设计 DOS 操作 系统 (DOS E “WERE EASE” IRS, XXE 
DOS 的 整个 设备 驱动 层 都 放 人 在 了 EPROM 中 ， 称 为 “ 茶 本 输入 /输出 系统 ”， 即 BIOS。 以 后 ， 这 种 格局 
WU 直 沿 用 了 下 来 . 在 BIOS F, 初始 引导 只 是 其 功能 的 “部 分 ,而 县 只 是 很 小 的 “部 分 。 现 在 的 BIOS 
甚至 已 经 比 当初 的 整个 DOS 还 要 人 人 了， 可 丰 册 人 也 不 可 能 把 所 有 操作 系统 的 引 叶 都 考虑 进去 ， 所 以 还 
是 米 用 初始 引导 程序 加 引导 夯 必 的 方案 ， 让 各 种 操作 系统 通过 中 翌 扇 区 .进一步 提供 其 自身 的 中 胖 手 段 ， 
Hat, 虽然 BIOS 提供 了 对 各 种 主 此 外 部 设备 的 基本 此 动 ， 但 是 ， 对 十 多 进 往 、 冤 用户 、 采 用 保护 模 
式 尤 其 是 页 式 映 射 的 操作 系统 却 未 必 会 适 ， 所 以 Linux AP AME BIOS 所 提供 的 设备 驱动 ,而 是 绕 
JF BIOQS， 从 硬件 接口 (寄存 器 ) 和 中 四 响应 半 始 彻底 地 实现 耻 册 的 设备 驱动 层 。 对 丁 Linux 来 说 ，BIOS 
的 作用 只 不 过 就 是 初始 引导 。 如 昌 要 说 其 他 还 有 什么 作 几 的 诉 ， 那 就 是 加 电 以 后 的 月 检 以 及 加 内 核 提 
供 在 此 过 程 中 搜集 到 的 _ 些 信息 了 (有 些 信息 是 出 用 户 设 早 的 )。 
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HT AD SH RE UR RR RA). 但 起 ， IAES, Og De CEM E 7528 4 HESSE EE 
Hs T. FECA. SET EI — T AS PCANISHETETI ee ie 
FARA ee a eb, KT AR., (BAL. BIOS 述 是 把 它 当 作 整个 价 盘 的 引导 户 | 区 ， 加 电 时 偿 
是 从 这 个 扇 区 “引导 ” 所 以 这 个 肩 区 称 为 “证 引 导 记 录 块 (出 区 )”MBR。MBR 小 含有 关于 盐 区 划分 
的 信息 (通过 fdisk 设置 )， 还 有 一 段 简 短 的 程序 ， 一 共 S$12 字 节 。 不 过 ，MBR 和 中 的 程序 并 不 直接 引导 操 
作 系统 ， 而 是 根据 盘 区 划分 的 信息 从 一 个 预定 的 “活跃 ”还 辑 磁盘 中 读 入 其 引导 扇 区 ， 再 出 这 个 引导 
局 区 自己 采取 进一步 的 行动 。 所 以 ， 可 以 把 MBR 的 作用 看 成 是 为 BIOS 中 的 初始 引导 程序 提供 了 一 种 
类 似 寺 间接 寻 址 的 于 段 。 不 过 ， 也 可 以 拒 用 来 “引导 ”LILO 的 程序 (连同 有 关 盘 区 划分 的 信息 ) 放 在 
MBR 中 ， 使 整个 引导 过 程 少 转 一 庆 弯 。 

可 得 而 知 ， 引 导 遍 区 中 的 程序 及 其 辅助 程序 (不 包括 LILO) 必 须 是 很 精练 的 ， 所 以 都 采用 并- 编 语言 
Se). VOUS RES ANTE arch/ 下 面具 体 CPU 名 下 的 boot 目录 中 。 就 1386 而 言 ， 都 在 arch/i386/boot "P. 
这 个 日 录 由 有 三 个 汇编 语 首 的 程序 : 

(1) bootsect.S， 这 是 Linux 引导 凯 区 的 源 代码， 汇编 以 后 不 得 超过 512 字 节 。 

(2) sctup.S$， 这 是 辅助 程序 的 一 部 分 。 

(3) video.S， 这 是 辅助 程序 的 另 一 部分， 用 十 引导 过 程 中 的 屏幕 显示 。 

在 arch/i386/boot 中 还 有 个 子 日 录 compressed， 含 有 两 个 源 代 码 文 件 head.S 以 及 misc.c。 版 本 较 新 
的 内 核 映 象 都 起 经 过 频 缩 的 ， 在 中 导 的 过 程 中 要 解 斥 缩 ， 这 两 个 文件 (还 有 lib/inflate.c) 中 的 代码 语 是 用 
于 解 止 缩 ， 也 属 十 辅助 程序 的 一 部 分 。 这 样 ， 经 过 编译 、 汇 山 、 连 接 以 后 恕 形成 于 个 组 成 部 分 ， 即 引 
FARZ bootsect、 和 铺 助 程序 setup 以 及 内 核 哄 象 本 身 (通常 是 vmlinux)。 

严格 说 米 ，bootsect 和 setup 并 不 是 内 核 的 一 部 分 ， 它 们 的 代码 又 都 是 用 着: 编 语 言 织 汪 的， 篇 幅 很 
大 ， 所 以 我 们 在 这 里 只 作 “: 些 简短 的 说 明 ， 出 不 深入 到 这 些 代码 中 去 了 ， 有 兴趣 或 需 归 的 读者 可 以 日 
已 阅读 。 这 些 代 码 都 有 比较 好 的 注释 ， 读 起 来 不 会 太 困难 。 

引导 凯 区 代码 arch/i386/boot/bootsect.S 的 作者 在 文件 开头 处 的 注释 中 ,对 开始 执行 这 段 代 码 以 后 的 
过 程 作 了 党 明 ; 











1 /* 

2 * hootsect.S Copyright (C) 1991, 1992 Linus Torvalds 

3 * 

4 * modified by Drew Eckhardt 

5 * modified hy Bruce Evans (bde) 

6 * modified by Chris Noe (May 1999) (as86 -> gas) 

fi * 

8 * bootsect is loaded at Ox7c00 by the bios-startup routines, and moves 

9 * itself out of the way to address 0x90000, and jumps there. 

10 * 

11 * bde - should not jump blindly, there may be systems with only 512K low 
12 * memory. Use int Ox12 to get the top of memory, ctc. 

I3 * 

14 * it then loads ’setup’ directly after itself (0x90200), and the system 

15 * at 0x10000, using BIOS interrupts. 

16 * 

17 * NOTE! currently system is at most (8:x65536-4096) bytes long. This should 
18 * be no problem, even in the future. I want to keep it simple. This 508 kB 
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19 * kernel size should be enough, especially as this doesn't contain the 
20 * buffer cache as in minix (and especially now that the kernel is 

21 * compressed :-) 

22 * 

23 * The loader has been made as simple as possible, and continuous 

24 * read errors will result in a unbreakable loop. Reboot by hand. It 

25 * loads pretty fast by getting whole tracks at a time whenever possible. 
26 */ 


读者 大 概 还 是 不 其 了 了 ， 我 们 再 作 一 些 解释 。 

在 PC 的 系统 结构 中 ， 线 性 地 址 0xA0000 LA F, BI 640KB 以 上 都 用 于 图 形 接 口 卡 以 及 BIOS AS, 
而 0xA0000 以 下 的 640KB 为 系统 的 基本 内 存 。 如果 配 备 史 多 的 内 存 ， 则 从 0x100000, 即 1MB 处 开始 ， 
称 为 “高 内 存 ”。 当 BIOS( 或 LILO) 引导 ?一 个 系统 时 , 总 是 把 引导 扇 区 读 入 到 基本 内 存 中 地 址 为 0x7c00 
的 地 方 ， 然 后 束 跳 转 到 0x7c00 开始 执行 引导 扇 区 的 代码 。 这 段 代 码 将 其 自身 “搬运 ”到 0x90000 处 ， 
并 日 中 转 到 那里 继续 执行 ， 然 后 通过 BIOS 提供 的 读 磁盘 调用 “int 0x13” 从 磁盘 上 读 入 setup 和 内 核 的 
UB. SEH setup 的 映 象 读 入 到 地 址 为 0x90200 的 地 方 ， 就 是 经 过 “搬运 ”后 bootsect 所 在 处 的 上 方 。 
然后 , Sup f setup 的 代码 中 , 作 好 执行 内 核 映 象 的 准备 , 包括 映 象 的 解压 缩 (如 果 需 要 的 话 ), 从 BIOS 
收集 一 些 数据 , 在 控制 台 上 :显示 “: 些 信息 等 等 。 从 0x90000 到 0xA0000 一 共 是 64KB, bootsect H d 512 
Tq B. PEA setup 的 大 小 理论 上 可 达 63.5KB 〈 实 际 上 当然 不 会 那么 人 )。 

基本 内 存 中 开头 一 部 分 空间 是 保留 给 BIOS 自己 用 的 , 另 一 方面 对 于 Linux 内 核 的 引导 也 需要 保留 
一 些 运 行 空间 ， 所 以 _ 共 保留 了 64KB。 这 样 ， 共 本 内 存 中 剩 下 来 可 用 十 内 核 映 象 的 就 是 8 个 64KB， 
BU 512KB. (Hat, fElX 512KB 的 顶端 还 要 留 下 4KB 用 于 引导 命令 行 (LILO 支持 引导 命令 行 ) 以 及 一 些 
需要 传递 给 内 核 的 数据 (从 BIOS 收集 得 到 )。 TE, 基本 内 存 中 实际 可 用 于 内 核 映 象 的 空间 就 是 508KB。 





的 映 象 拼接 在 一 起 ， 成 为 内 核 的 “引导 映 象 ?”。 日 录 arch/i386/boot/tools 中 的 build.c 经 编译 /连接 以 后 产 
生 的 可 执行 程序 build， 就 是 用 来 拼接 引导 有 映 象 的 工具 。 大 小 不 超过 508KB 的 引导 映 象 称 为 “小 映 象 ” 
文件 名 为 zImages 否则 就 称 为 “大 内 核 ” 文件 名 为 bzlmage. HF bzImage FRAN HERRERA 
下 ， 所 以 要 装载 在 地 址 为 0x100000 (IMB) 的 地 方 。 不 过 ， 不 管 是 zlmage 偿 是 bzIimage， 解 除 上 正 缩 以 
后 的 内 核 映 象 总 龙 放 在 地 址 为 0x100000《〈1MB ) 的 地 方 。 

CPU 在 跳 转 刘 bootsect 时 尚 处 于 16 位 实地 址 模式 , 然后 在 setup 的 执行 过 程 中 转 入 32 位 保护 模式 
的 段 式 寻 址 方式 。 在 bootsect 和 setup 的 执行 中 ， 二 者 都 利用 BIOS 提供 的 调用 来 完成 “ 些 比较 大 的 操 
Ye, ERR, I BIOS 在 加 电 自 检 时 搜集 到 的 有 关内 存 的 信息 等 等 。 一 旦 转 入 内 核 映 象 本 壬 的 执 
行 ， 就 与 BIOS MEHR, AEH BIOS 调用 了 。 

辅助 程序 setup 为 内 核 映 象 的 执行 作 好 了 准备 (包括 解除 压缩 ) 以 后 ， 就 跳 转 到 0x100000 开始 内 核 
本 甘 的 执行 ， 此 后 就 十 内 核 的 初始 化 过 程 了 。 内 核 的 初始 化 是 个 非常 漫长 的 过 程 ， 整 个 过 程 可 以 分 战 
= MITE. PARE Bat CPU 本 身 的 初始 化 ， 例 如 页 式 映射 的 建立 ， 第 二 个 阶段 土 要 是 系统 中 一 
些 基 础 设施 的 初始 化 ， 例 旭 内 存 管理 和 进程 管理 的 建立 和 初始 化 ;最 后 则 是 “上 层 建筑 ”的 初始 化 ， 
如 根 设备 的 安装 和 外 部 设备 的 初始 化 等 等 。 由 于 整个 过 程 涉 太 的 代码 太 大 ， 我 们 相应 地 把 它 分 成 三 节 
加 以 叙述 。 
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10.2 系统 初始 化 (第 一 阶段 ) 


将 Linux 内 核 的 映 象 装 入 内 存 中 ， 并 且 作 好 了 一 些 必要 的 准备 以 后 ，CPU 就 通过 一 条 长 程 转移 指 
令 转 到 映 象 代码 段 开 头 的 入 口 startup_32， 从 那里 开始 执行 。 对 于 SMP 结构 的 系统 ， 这 个 时 候 在 运行 
的 只 是 其 中 的 一 个 处 理 器 ， 就 是 所 谓 “ 主 CPU”( 也 称 “ 引 导 处 理 器 ”BP)， 而 其 他 的 “次 CPU” CU 
称 “ 应 用 处 理 器 ”AP) 则 处 于 停机 状态 ， 等 待 主 CPU 的 启动 。 次 CPU 在 受到 局 动 进入 内 核 时 间 样 也 
要 从 startup_32 开始 执行 ， 所 以 从 startup_32 开始 的 代码 是 公共 的 。 但 是 有 些 操作 仪 由 主 CPU 执行 ， 
PA - 些 操作 则 仅 由 次 CPU 执行 。 主 CPU 在 进入 startup_32 时 其 寄存 器 %bx 的 内 容 为 0， 向 次 CPU 
在 进入 startup_32 时 其 寄存 器 %bx 的 内 容 为 1， 在 执行 的 过 程 中 就 据 此 区 分 执行 者 (CPU) 在 系统 中 扮演 
的 角色 。 不 过 ， 这 里 要 着 重 指出 ， 这 里 的 代码 虽然 是 公共 的 ， 但 是 并 不 意味 着 主 CPU 和 次 CPU 有 可 
能 并 发 地 执行 这 段 程序 。 实 际 上 ,， 主 CPU 是 开路 先锋 ， 它 首先 执行 这 段 程序 ,“ 夫 山 开 路 , 过 水 拱桥”， 
完成 以 后 才 逐 个 地 启动 次 CPU 执行 ， 并 且 等 待 其 完成 。 所 以 ， 在 同一 时 间 中 ， 系 统 中 最 多 只 有 一 个 处 
理 器 在 执行 这 段 程 序 。 

内 核 映 象 的 起 点 是 stext, 也 是 _stext, 引导 和 解压 缩 以 后 的 整个 映 象 放 在 内 存 中 从 0x100000 B! 1MB 
开始 的 区 间 。CPU 执行 内 核 映 象 的 入 口 startup_32 就 在 内 核 映 象 开头 的 地 方 ， 因 此 其 物理 地 址 也 是 
0x100000。 然 而 ， 读 者 在 第 2 章 中 曾 看 到 ， 在 正常 运行 时 整个 内 核 映 象 都 应 该 在 系统 空间 中 ， 系 统 空 
间 的 地 址 上 映射 是 线性 的 ,连续 的 , 虚拟 地 址 与 物理 地 址 间 有 个 固定 的 位 移 , 这 就 是 0xC0000000, 即 3GB。 
所 以 ， 在 连接 内 核 映 象 时 已 经 在 所 有 的 符号 地 址 上 加 了 一 个 偏 移 量 0xC0000000， 这 样 startup_32 的 虚 
拟 地 址 就 成 了 0xC0100000。 

不 管 是 主 CPU 还 是 次 CPU， 进 入 startup_32 时 都 运行 于 保护 模式 下 的 段 式 寻 址 方式 。 段 描述 表 中 
与 “KERNEL CS 和 KERNEL DS 相对 应 的 描述 项 所 提供 的 基地 址 都 是 0, 所 以 实际 产生 的 就 是 第 2 
章 中 讲 过 的 “线性 地 址 ”。 其 中 代码 段 寄存 器 CS 已 在 进入 startup 32 之 前 设置 成 KERNEL_CS， 数 
据 段 寄存 器 则 尚未 设置 成 ”KERNEL_DS。 不 过 ， 虽 然 代 码 段 寄 存 器 已 经 设置 成 KERNEL CS. Afi 
startup_32 的 地 址 为 0xC0100000。 但 是 在 转 入 这 个 入 口 时 使 用 的 指令 是 “ljmp 0x100000” rfr Nac “limp 
startup_32”， 所 以 装 入 CPU 中 寄存 器 IP 的 地 址 是 物理 地 址 0x100000 而 不 是 虚拟 地 址 0xC0100000。 这 
PRÉ, CPU 在 进入 startup_32 以 后 就 会 继续 以 物理 地 址 取 指 令 。 只 要 不 在 代码 段 中 引用 某 个 地 址 ， 例 如 
向 某 个 地 址 作 绝对 转移 , 或 者 调用 某 个 子 程序 , 就 可 以 … 直 这 样 运行 下 去 , 而 与 CS 的 内 容 无 关 , 此 外 ， 
CPU 的 中 断 已 在 进入 startup_32 之 前 关闭 。 

从 startup. 32 开始 的 汇编 代码 在 arch/i386/kerneVhead.S 中 ， 这 就 是 初始 化 的 第 一 阶段 。 


[startup_32( )] 


39 /* 

40 * swapper pg dir is the main page directory, address 0x00101000 
41 * ! 

42 * On entry, *esi points to the real-mode code as a 32-bit pointer. 
43 */ 


44 . ENTRY(stext) 
45 ENTRY (_stext) 
46 startup 32: 
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47 
48 


67 
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/* 


* Set scgments to known values 

*/ 
cld 
mov! $( KERNEL DS), %eax 
movl %eax, %ds 
mov] %eax, es 
movl %eax, %fs 
moy] %eax, gs 

Rifdcf CONFIG SMP 
orw %bx, %bx 
jz 1f 


/* 
New page tables may be in 4Mbyte page mode and may 
be using the global pages. 


* 
* 

* 

* NOTE! If we are on a 486 we may have no cr4 at all! 
* So we do not try to touch it unless we really have 
* some bits in it to set. This won t work if the BSP 
* implements cr4 but this AP does not -- very unlikely 
* but be warned! The same applies to the pse feature 
* if not equally supported. -~macro 

* 
* 
xæ 


NOTE! We have to correct for the fact that we're 
not yet offset PAGE OFFSET.. 
*/ 
Sdefine cr4 bits mmu cr4 features- PAGE OFFSET 
cmpl $0,cr4 bits 
je 3f 
movl *cr4, %eax # Turn on paging options (PSE, PAE,..) 
orl cr4 bits, %eax 
movl %eax, %cr4 


jmp 3f 
Ls 
Hendif 
/* 
* Initialize page tables 
*/ 
movl $pg0-__ PAGE OFFSET, Wedi /* initialize page tables */ 
movl $007, %eax /* “007” doesn't mean with right to kill, but 
PRESENT+RW+USER */ 
2: stosl 


add $0x1000, %eax 
cmp $empty zero page- _PAGE OFFSET, %edi 
jne 2b 
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首先 将 CPU HER CS 以 外 所 有 的 段 寡 存 器 , 即 %ds、%es、%fs URMes, 者 设置 成 KERNEL DS. 
读者 在 第 2 章 中 看 到 过 这 个 数值 是 0x18, 表示 采用 全 局 段 描 述 表 GDT 中 下 标 为 3 的 段 描 述 项 ,出 RPL 
则 为 0。 引导 辅助 称 序 在 转 入 startup_32 之 前 准备 下 了 个 临时 的 全 局 段 描 述 表 ， 表 中 相应 的 描述 项 给 
出 基地 址 为 0， 也 就 是 使 用 线性 地 址 。 

不 管 是 主 CPU EK CPU, 在 Linux 内 核 由 都 此 进入 页 式 映 射 模式 运行 。 暂 时 以 物 埋 地 址 取 指 令 
虽然 是 可 以 的 ， 但 是 不 能 在 代码 中 癌 符号 地 址 作 绝 对 转移 或 调用 子 程序 ， 因 此 终 间 长 久之 计 ， 所 以 ， 
要 尽快 准备 好 页 看 映射 表 并 开启 CPU 的 页 面 映射 机 制 。 代 码 中 的 86 一 92 行将 从 pgo 开始 直到 
empty zero page 之 间 的 8K 了 节 设 置 成 一 个 临时 的 页 面 映射 表 。 这 个 页 面 表 在 内 存 中 ， 是 由 所 有 CPU 
公用 的 ， 所 以 只 由 证 CPU 进行 初始 化 ， 次 CPU 则 要 跳 过 这 小段 代码 ( 见 57 一 58 行 以 及 76 8180 fF). 
此 外 ， 对 十 次 CPU 这 里 还 有 个 小 插曲 ， 堵 就 是 如 果 系 统 支 持 PSE/PAE， 凤 36 位 地 址 模式 的 话 还 要 相 
应 地 设置 其 控制 寄存 器 Wcr4 (77—79 行 )。 


399 /* 

400 * The page tables are initialized to only 8MB here - the final page 
401 * tables are set up later depending on memory sizo. 

402 */ 


403 .org 0x2000 
404 ENTRY (pgO) 
405 

406 .org Ox3000 
407 ENTRY (pg1) 


408 

409 /* 

410 * empty zero page must immediately follow the page tables ! (The 
411 * initialization loop counts until empty zero page) 

412 */ 

413 


414 .org 0x4000 
415 ENTRY (empty zero page) 


^ XX — PAGE OFFSET 7% A 5 77 JE IN WE Uh hb e; 39 FE MA hb Ve, 定义 十 
include/asm-i386/page.h: 


81 define __ PAGE OFFSET (0xC0000000) 


可 见 ，pg0 TEAbHEGREDSE- T REFPIKpES A, AV If) 0x2000 的 地 方 。 这 个 页 面 映射 表 中 的 表 项 依次 
设置 为 0x7、0x1007、0x2007 等 等 。 其 中 最 低 的 二 位 均 为 1， 表 小 页 面 为 用 户 页 和 面 ， 可 写 ， 并 且 页 出 的 
内 容 在 内 存 中 (参阅 第 2 章 )。 喘 射 的 日 标 ， 如 物理 页 面 的 基地 址 ， 则 分 划 为 OxO. Ox1000. 0x2000 ^5:^5:, 
也 就 古物 埋 内 存 中 的 页 而 0、1、2 等 等 。 映 射 表 的 大 小 是 两 个 页面 ， 即 2K 个 表 项 ， 所 以 代表 着 一 块 
8MB 的 存储 空间 ， 这 就 十 Linux 内 核对 内 存 大 小 的 最 低 限度 要 求 。 

AMA, Di A ae ZEB LM? 


383 /* 
384 * This is initialized to create an identity-mapping at 0-8M (for bootup 
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385 * purposes) and another mapping of the 0-8M area at virtual address 
386 * PAGE OFFSET. 
387 */ 


388 .org 0x1000 
389 ENTRY (swapper pg dir) 


390 . long 0x00102007 

391 . long 0x00103007 

392 .fill BOOT USER PGD PTRS-2, 4,0 
393 /* default: 766 entries */ 

394 . long 0x00102007 

395 . long 0x00103007 

396 /* default: 254 entries */ 

397 .fill BOOT KERNEL PGD PTRS-2, 4, 0 


这 里 的 392 行 利 用 汇编 语言 提供 的 功能 在 其 所 在 的 位 置 上 填 入 766 个 日 录 项 ， 每 个 目录 项 的 大 小 
为 4 个 字 节 ， 内 容 为 0。 同 样 ，397 行 也 填 入 254 个 这 样 的 日 录 项 。 这 里 引用 的 儿 个 常数 均 定义 丁 
include/asm-1386/pgtable.h: 
126 8define TWOLEVEIL, PGDIR SHIFT 22 


127 define BOOT USER PGD PTRS (. PAGE OFFSET >> TWOLEVEL PGDTR SIIIFT) 
128 define BOOT KERNEL PGD PTRS (1024-BOOT, USER PGD PTRS) 


回顾 一 下 第 2 章 的 内 容 ， 这 里 的 常数 ._ PAGE OFFSET 是 0xC0000000 , fi LA 
BOOT_USER_PGD_PTRS 为 768， 而 BOOT. KERNEL PGD PTRS 则 为 236。 一 -个 页 面目 录 的 大 小 站 
4KB， 含 有 1024 个 目录 项 ， 共 代表 着 4GB 的 虚 存 空间 。Linux 内 核 以 3GB 为 界 把 整个 虚 存 空间 分 成 
用 户 空间 和 系统 空间 两 部 分 。 所 以 ， 页 面 日 录 中 的 低 768 个 目录 项 用 十 用 户 空间 的 映射 ， 而 高 256 个 
目录 项 用 十 系统 空间 的 上 映射。 在 初始 的 页 面 日 录 swapper pg dir 中 ， 用 户 空间 和 系统 空间 都 只 映射 了 
开头 的 两 个 目录 项 (390-391 行 以 及 394—395 行 )， 即 8MB 的 空间 ， 而 且 有 着 相同 的 映射 ， 即 指 问 
相同 的 页 面 映射 家。 这 样 ， 以 符号 地 址 empty. zero page 为 例 ， 在 连接 内 核 映 象 时 这 个 地 址 显然 是 安排 
在 0xC0000000 以 上 的 空间 ， 而 物理 上 却 是 装 入 在 (empty_zero_page 一 0xC0000000) 的 地 址 上 。 所 以 , 右 
在 未 开启 页 式 映 射 之 前 要 引用 这 个 符号 ， 就 要 从 中 减 去 位 移 量 .PAGE_OFFSET (A 8647 91 fr). 
可 起 ,一 旦 开启 页 式 映射 以 后 ， 再 费 引 用 这 个 符号 时 就 可 以 (而 凡 应 该 ) 直 接 引 用 了 。 再 来 看 目录 需 的 内 
容 ， 以 394 行为 例 ， 这 个 目录 项 指向 物理 地 址 0x00102000， 这 是 在 IMB 以 上 的 区 间 中 ， 实 际 上 就 是 
pgo 的 物理 地 址 。 前面 403 和 404 行 指定 ped 的 起 点 地 址 为 0x2000, 那 是 假定 整个 内 核 映 畏 是 从 地 址 0 
开始 时 的 起 点 ， 而 现在 内 核 映 象 放 在 从 地 址 0x00100000 开始 的 地 方 ，pg0 的 起 点 也 就 相应 地 变 成 了 
0x00102000。 

那么 ， 为 什么 在 虚 存 空间 的 低 区 ， 邮 本 来 应 该 属于 用 户 空间 的 位 置 上 (390~391 行 ) 也 要 放 | 上 |: 同样 
的 目录 项 昵 ? Mig EATER. WER, CPU 进入 startup_32( ) 以 后 是 以 物理 地 址 来 取 指 令 
的 。 在 这 种 情况 下， 如 果 了 映射 目 录 只 包括 系统 空间 ， 即 虚 存 罕 间 高 区 的 映射 ， 而 不 包括 虚 存 空间 低 区 
的 上 映射， 则 一 旦 开启 页 式 映 射 以 后 就 不 能 继续 执行 了 ， 困 为 此 时 CPU 中 的 取 指 令 指 针 IP 仍 指向 低 区 ， 
仍 会 以 物理 地 址 取 指 令 ， 直 到 以 某 个 符号 地 址 为 目标 作 绝 对 转移 或 调用 子 程序 时 为 收 。 所 以 ， 解 决 的 
办 法 是 分 两 步 走 : 

(1) 先 开 启 抽 式 映射 , 但 是 在 虚 存 空间 的 低 区 暂时 提供 与 高 区 相同 的 映射 , 使 CPU 可 以 继续 执行 。 
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(2) 在 开启 了 页 式 映射 之 后 ， 以 一 个 符号 地 址 为 日 标 执 行 一 条 绝对 转移 指令 。 如 前 所 述 ， 册 符号 
所 代表 的 地 址 是 系统 空间 的 虚拟 地 址 。CPU 在 执行 绝对 转移 指令 时 把 这 个 虚拟 地 址 装 入 IP， 从 此 就 改 
成 以 虚拟 地 址 在 系统 空间 取 指 令 了 。 

CPU 转 入 系统 空间 以 后 ,应 该 把 低 区 的 映射 清除 .后面 读者 将 会 看 到 , 页 面 映 射 日 录 swapper. pg. dir 
经 过 扩充 以 后 就 成 为 所 有 内 核 线程 的 页 面 映 射 月 录 。 在 内 核 线程 的 正常 运行 中 ， 处 于 系统 状态 的 CPU 
是 不 应 该 通过 用 户 空间 的 虚拟 地 址 访问 内 存 的 。 清 除了 低 区 的 映射 以 后 ， 如 果 发 生 CPU 在 内 核 中 通过 
用 户 空间 的 虚拟 地 址 访问 内 存 ， 就 可 以 因为 产生 页 面 异 常 而 抓 住 这 个 错误 。 





页 而 映射 表 pg] 


映射 范围 4 一 8 MB 
共 1024 个 页 面 








映射 至 2048 个 
物 埋 内 存 页 面 ， 
254 NE GIU 白 物理 地 址 0—8MB 







oxco00000 三 一 一 虚拟 地 址 义 5 

OxCO000000+X 

被 映射 至 同一 
物理 地 址 X 


页 面 映射 表 pgo 










766 项 空白 





whip 3 Fl 0-4 MB 
jt 1024 个 页 面 







0x0 






Nc 目录 
swapper pg. NW x 





页 面 映射 表 





图 10.1 初始 化 第 一 阶段 的 页 面 映射 


在 开局 页 式 映 射 完成 加 系统 空间 过 渡 之 前 ， 如 果 必 须要 作 绝 对 转移 或 系统 调用 ， 就 得 在 目标 地 址 
上 减 去 位 移 量 PAGE_OFFSET， 即 0xC0000000。 就 任 这 一 点 ， 铅 页 式 映 射 和 系统 空间 的 过 渡 就 宜 早 
不 宜 达 。 所 以 ， 现 在 是 开局 页 面 映 射 机 制 的 时 候 了 。 注 意 下 面 又 是 主 CPU 和 次 CPU 共用 的 代码 了 。 
页 面 映射 是 CPU 内 部 的 功能 ， 每 个 CPU 都 村 开 月 其 自己 的 页 面 喘 射 机 制 ， 尽 管 使 用 的 页 面 映 射 目 录 
和 页 面 映射 表 是 相同 的 。 


[startup_32¢ )] 


94 /* 

95 * Enable paging 

96 */ 

97 3: 

98 movl $swapper pg dir- PAGE OFFSET, %eax 

99 mov} %eax, %cr3 /* set the page table pointer.. */ 
100 movl %cr0, %eax 
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101 orl $0x80000000, %eax 

102 movl %eax, %cr0 /* ..and set paging (PG) bit */ 
103 jmp 1f /* flush the prefetch-queue */ 

104 l: 

105 movl $1f, %eax 

106 jmp *%eax /* make sure eip is relocated */ 
107 l: 

108 /* Set up the stack pointer */ 

109 lss stack start, %esp 

110 


Xt XC A EL oe ek AA or, FFE Scr 中 的 最 高 位 设置 成 1， 束 开启 了 CPU 的 页 面 映 
射 机 制 。 装 入 控制 寄存 内 Wer3 的 地 址 必须 是 页 面目 录 的 物理 地 址 ， 所 以 要 从 虚拟 地 址 swapper_pg_dir 
中 减 去 储 移 量 ， 把 它 还 原 为 物理 地 址 。 
开启 页 面 映 财 机 制 以 后 立 节 就 有 条 相对 转移 指令 (103~104 行 )， 从 逻辑 上 说 这 条 指令 不 起 什么 作 
用 ， 但 是 它 起 到 了 丢弃 已 经 在 CPU 的 取 指 令 流 水 线 中 内 容 的 作用 ， 这 是 Intel 在 1386 的 技术 资料 中 建 
议 的 。 由 于 跳 转 的 目标 离 得 很 近 ，103 行 的 jmp 指令 是 条 相对 转移 指令 ， 只 是 在 IP 的 当前 值 F 加 了 c 
个 不 大 的 位 移 ，CPU 仍旧 以 物理 地 址 取 指 令 而 并 没有 转 入 系统 空间 ， 所 以 至 104 行为 止 只 是 完成 了 二 
述 的 第 一 步 。 但 是 ， 从 此 开始 , 遂 过 数据 段 引 用 符号 地 址 时 就 不 需要 从 中 减 去 俩 移 量 _ PAGE_OFFSET 
了 。 紧 接着 的 另 一 条 转移 指令 (106 行 ) 就 不 同 了 ，105 行 把 月 标 地 址 置 入 %eax 时 是 通过 数据 段 引 用 这 个 
符号 的 ， 所 以 这 个 地 址 在 系统 空间 中 ， 然 后 以 %eax 中 的 这 个 地 址 为 日 标 执行 jmp 指令 ， 就 使 CPU 转 
入 了 系统 空间 ， 完 成 了 昌 种 模式 间 的 平稳 过 小 。 
本 来 ， 现 在 可 以 清除 页 面 映 射 日 录 低 区 的 那些 月 录 项 了 ， 可 是 ， 考 虑 到 次 CPU 将 来 也 要 有 这 人 么 个 
过 渡 的 过 程 ， 所 以 还 得 暂时 保留 着 ， 旬 系统 中 所 有 的 CPU 都 完成 了 过 渡 才 米 清除 。 
代码 中 的 109 行将 CPU 的 堆栈 设置 在 stack_start 处 。 | 
330 ENTRY (stack start) 
331 .long SYMBOL NAME (init. task union)+8192 
332 .long . KERNEL DS 


这 里 的 init task. union 是 个 union， 其 类 型 定义 二 include/linux/sched.h: 


480 &ifndef INIT TASK SIZE 
481 8 define INIT TASK SIZE 2048*sizeof (long) 


482 Bendif 

483 

484 union task union { 

485 struct task struct task; 

486 unsigned long stack[INIT TASK SLZE/sizeof (long) | ; 
487 Fi 


也 就 是 说 ， 既 可 以 把 task union 看 成 … 个 task_stmect 结构 ， 也 可 以 把 它 看 成 一 个 数组 ， 数 组 的 大 小 
是 8K 宁 节 ， 即 两 个 页 面 。 读 首 在 第 4 章 中 看 到 ， 每 个 进程 的 task_struct 数据 结构 和 系统 空间 堆栈 共 占 
两 个 页 向 ， 下 部 是 task struct 结构 ， 上 部 是 系统 空间 堆栈 。 可 想 调 知 ， 这 里 是 在 为 创建 系统 中 的 第 一 
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个 进程 进行 准备 ， 而 具体 的 数据 结构 init_task_union 则 定义 于 arch/i386/kernel/init_task.c: 


15 /* 

16 * Initial task structure. 

if * 

18 * We need to make sure that this is 8192-byte aligned due to the 
19 * way process stacks are handled. This is done by having a special 
20 * "init task" linker map entry.. 

21 */ 

22 union task union init task union 

23 | attribute ((. section, (".data. init task^))) = 

24 ( INIT TASK(init task union. task) }: 


数据 结构 的 内 容 由 宏 定 义 JNIT_TASK() 决 定 ， 其 代码 在 include/linux/sched.h 中 : 


434 /* 

435 * INIT TASK is used to set up the first task table, touch at 
436 * your own risk!. Base-0, limit=Oxlfffff (=2MB) 

437 */ 

438 define INIT TASK(tsk) \ 

439 { \ 

440 state: 0, a 

44] flags: 0, \ 

442 sigpending: 0, \ 

443 addr limit: KERNEL_DS, X 

444 exec domain: &default exec domain, \ 

445 lock depth: -1, \ 

446 counter: DEF_COUNTER, \ 

447 nice: DEF_NICE, \ 

448 policy: SCHED OTHER, \ 

449 mm: NULL, \ 

450 active_mm: &init mm, \ 

451 cpus allowed: el: N 

452 run list: LIST HEAD INIT(tsk. run list), \ 
453 next task: &tsk, \ 

454 prev_task: &tsk, \ 

455 p_opptr: &tsk, \ 

456 p pptr: &tsk, \ 

457 thread_group: LIST HEAD. INIT (tsk. thread, group), \ 
458 wait chldexit:\ _ WAIT QUEUE HEAD TNITIALIZER(tsk. wait_chldexit), \ 
459 real timer; { \ 

460 function: it_real_fn \ 

461 1s \ 

462 cap effective: CAP_INIT EFF SET, X 

463 cap inheritable: CAP INIT INH SET, \ 

464 cap permitted: CAP FULL, SET, X 

465 keep capabilities: 0, X 
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466 rlim: INIT RLIMITS, \ 

467 user: INIT USER, \ 

468 comm: ” swapper”, \ 

469 thread: INIT_THREAD, \ 

470 fs: &init fs, \ 

471 files: &init files, X 

472 sigmask lock: SPIN LOCK UNLOCKED, \ 
473 Sig: &init signals, \ 

474 pending: { NULL, &tsk. pending. head, {{0}}}, \ 
475 blocked: {{0}}, X 

476 alloc lock: SPIN LOCK UNLOCKED \ 
477} 


这 个 进程 的 thread 结构 定义 为 全 0: 


379 #define INIT THREAD { \ 
380 0, X 

381 D- 0, 0, 0 \ 

382 { ix /* debugging registers */ 
383 0,0, 0 \ 

384 { NET /* 387 state */ \ 
385 0 0, 0, \ 

386 0 /* io permissions */ \ 
387 |] 


显然 ， 这 个 进程 的 名 称 是 “swapper”。 代 码 的 作者 在 注释 中 警告 不 要 轻 妃 改变 它 的 内 容 。 读 者 还 
蓝 注 意 ， 不 要 把 这 个 进程 与 后 面 讲 到 的 init HAAR 

读者 也 许 要 间 ， 上面 98—109 行 这 段 代 码 是 共同 的 ， 如 果 主 CPU 和 次 CPU 都 把 系统 空间 堆栈 设 
置 在 同一 个 地 方 ， 难 道 就 不 会 引起 冲突 吗 ? 不 会 ， 这 两 个 页 面 的 使 用 只 是 暂时 的 ， 在 同 -时间 中 只 可 
能 有 一 个 CPU 在 使 用 ， 而 且 用 完了 就 不 会 再 回来 ， 所 以 不 会 造成 问题 。 读 者 在 后 面 就 会 看 到 ， 次 CPU 
在 经 由 initialize secondary( ) 进 入 start_secondary( ) 的 途中 会 将 其 系统 空间 堆栈 (从 而 其 task_struct 结构 ) 
更 换 到 由 主 CPU 为 之 准备 好 的 地 方 。 


[startup 32( )] 
111 #ifdef CONFIG SMP 
112 orw %bx, %bx 
113 jz 1f /* Initial CPU cleans BSS */ 
114 pushl $0 
115 popfl 
116 jmp checkCPUtype 
117 l; 
118 #endif CONFIG SMP 
119 
120 /* 
121 * Clear BSS first so that there are no surprises... 
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A T AL 一 


122 * No need to cld as DF is already clear from cld above... 
123 */ 

124 xorl %eax, $eax 

125 movl $ SYMBOL NAME( _bss_start), %edi 

126 movl $ SYMBOL NAME( end), *ecx 

127 subl %edi, %ecx 

128 rep 

129 stosb 

130 

131 /* 

132 * start system 32-bit setup. We need to re-do some of the things done 
133 * in 16-bit mode for the “real” operations. 

134 */ 

135 call setup_idt 


对 于 次 CPU， 只 是 在 这 里 的 114 一 116 行 将 其 “标志 寄存 器 ”设置 成 0， 接着 就 转 到 下 面 的 标号 
checkCPUtype 处 了 。 而 主 CPU 则 担任 着 开路 先锋 的 角色 ， 需 要 作 更 大 的 页 献 。 

第 - - 件 事 是 初始 化 内 核 的 bss 段 。 内 核 的 映 象 也 跟 其 他 的 可 执行 程序 - 样 有 个 bss Be, bss 段 中 是 
一 些 全 局 变量 或 者 静态 (static) 变 量 ， 需要 在 开始 运行 程序 的 主体 之 前 将 这 个 区 问 全 部 清 0。 这 里 的 124~ 
1204148 JA. bss start 开始 到 _end 为 止 的 bss 段 全 部 清 0。 顺 便 提 一 下 ， 4 _bss_start. end RIEF 
的 值 是 由 gcc 在 编译 和 连接 时 白 动 生成 的 。 

第 一 件 事 是 通过 setup. idt ) 设 置 初始 状态 的 中 断 向 量 表 ， 或 日 中 断 描述 表 。 读 者 在 第 3 章 中 已 经 看 
到 ， 每 个 表 项 的 大 小 是 8 个 字 节 ， 共 有 256 个 表 项 。 函 数 setup_idt( ) 的 代码 在 间 一 个 文件 中 。 


[startup_32( ) > setup. idt( )] 


304 /* 

305 * setup idt 

306 * 

307 * sets up a idt with 256 entries pointing to 

308 * ignore int, interrupt gates. It doesn't actually load 
309 * idt - that can be done only after paging has been enabled 
310 * and the kernel moved to PAGE OFFSET. Interrupts 

311 * are enabled elsewhere, when we can be relatively 

312 * sure everything is ok. 

313 */ 

314 setup_idt: 

315 lea ignore_int, %edx 

316 movi $(.. KERNEL CS << 16), %eax 

317 movw %dx, %ax /* selector = 0x0010 = cs */ 

318 movw $0x8E00, %dx /* interrupt gate — dpl=0, present */ 
319 

320 lea SYMBOL. NAME (idt table), %edi 

321 mov $256, %ecx 

322 rp_sidt: 

323 movl %eax, (%edi) 
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324 movl %edx, 4 (%edi)} 
325 add! $8, %edi 

326 dec %ecx 

327 jne rp sidt 

328 ret 


初始 状态 的 256 个 中 断 描 述 项 全 都 相同 ， 部 指向 同 .个 中 断 响应 程序 ignore int( ).. 488311] 315— 
318 行 在 寄存 器 %edx 和 peax 中 构筑 起 一 个 中 断 门 的 映 象 ,然后 就 通过 -个 循环 将 相同 的 内 容 写 入 从 
idt table 开始 的 256 个 表 项 中 。 读 者 不 妨 结合 第 3 瘟 中 的 有 关内 容 搞 清楚 : 这 些 表 项 的 沙 数 指针 指向 
ignore_int( )， 而 P 标点 位 为 1( 表 示 让 内 存 中 )，DPL 为 0( 级 别 最 高 )，D 标志 位 为 1(32 fr), KATY 
110( 中 上 断 门 )， 合 在 一 起 就 是 0x8e00。 此 外 ， 读 者 在 第 3 帝 中 已 经 看 到 ， 这 些 表 项 的 内 容 以 后 可 以 通过 
set_trap_gate( )、set_system_gate( ) 等 雏 数 加 以 改变 。 中 断 响应 程序 ignore, int ) 的 代码 也 在 同 “文件 中 。 


337 ALIGN 

338 ignore int: 

339 cld 

340 pushi %eax 

341 pushl %ecx 

342 pushl %edx 

343 pushl %es 

344 pushl %ds 

345 movl $( KERNEL DS), *eax 
346 movl %eax, %ds 

347 movl %eax, %es 

348 pushl $int_msg 

349 call SYMBOL_NAME (printk) 
350 popl %eax 

351 popl %ds 

302 popl %es 

3583 popl %edx 

354 popl *ecx 

355 popl %eax 

356 iret 


334 /* This is the default interrupt “handler” :-) */ 
335 int msg: 
336 .asciz "Unknown interrupiWn^ 


Mtii MICE AE PUES printk( ) 在 岩 幕 上 显示 “ 行 出 错 信息 。 在 初始 化 期 问 ， printk( )£E Bf 


幕 上 显示 信 必 ,而 在 系统 转 入 正式 运行 以 后 则 - : 般 部 是 将 信息 写 入 系统 的 运行 日 志 /var/messages。 全 十 
中 断 描 述 表 idt_tablel ]， 则 是 在 arch/i386/kemel/traps.c 中 定义 的 全 局 量 。 


58 /* 

59 * The IDT has to be page-aligned to simplify the Pentium 
60 * F0 OF bug workaround.. We have a special link segment 
61 * for this. 
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62 
63 
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*/ 
struct desc struct idt table[256] 
| attribute (( section (".data.idt^))) = 1 10, 0}, }; 


Aib, REER RE R EAE T — EE TATE EBT HAIR RET ELE YE CE. "P DB aa 


a teas” IDTR, G3EG3IJP BW 


第 二 件 事 与 引导 命令 行 和 参数 有 关 。 如 前 所 述 ，LILO 允许 在 引导 时 使 用 命令 行 ， 并 将 其 传递 给 内 


核 ， 而 setup 则 从 BIOS 收集 一 些 数据 ， 作 为 “引导 参数 ”一 起 传递 给 引导 进来 的 内 核 。 这 些 数据 合 在 
一 起 占据 不 超过 一 个 页 面 的 空间 ， 只 是 在 初始 化 期 间 才 用 到 。 内 核 中 本 来 有 个 内 容 为 全 0 的 页 面 
empty_zero_page， 代 码 中 常常 通过 宏 定 义 ZERO_PAGE 引 几 的 就 是 这 个 页 面 。 不 过 ， 这 个 页 面 要 到 初 
始 化 完成 、 系 统 转 入 正常 运行 时 才 会 用 到 ， 现 在 不 妨 先 利用 一 下 ， 所 以 把 命令 行 和 引导 参数 部 复制 到 
这 个 页 面 中 。 这 样 ， 这 些 数 据 原 米 占据 的 页 面 就 腾 了 出 来 ， 可 以 回收 了 (I 身 empty. zero. page. bc IE Ae ^ 
能 回收 的 )。 





[startup_32( )] 


136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
15] 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 


/* 
* Initialize eflags. Some BIOS's leave bits like NT set. This would 
* confuse the debugger if this code is traced. 
* XXX - best to initialize before switching to protected mode. 
*/ 
pushl $0 
popfl 
f* 
* Copy bootup parameters out of the way. First 2kB of 
* empty zero page is for boot parameters, second 2kB 
* js for the command line. 
* 
* Note: %esi still has the pointer to the real-mode data. 
*/ 
mov] $ SYMBOL NAME(empty zero pago), %edi 
movl $512, %ecx 
eld 
rep 
movs 1 
xorl %cax, eax 
movl $512, %cecx 
rep 
stosl 
mov! SYMBOL NAME(empty zero page)*NEW CL POINTER, %esi 
andl %esi, %esi 


jnz 2f # New command line protocol 
empw $(OLD CL MAGIC), OLD CI. MAGIC ADDR 
jne 1f 


movzwl OLD CL OFFSET, %esi 
addl $(OLD CL BASE ADDR), %esi 
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166 2: 

167 movl $ SYMBOL NAME(empty zero page)+2048, %edi 
168 movl $512, %ecx 

169 rep 

170 movsl 

171 14 


将 setup 传递 过 米 的 引导 参数 和 命令 行 复制 到 empty. zero. page 中 以 后 ， 就 在 这 个 页 面 中 形成 了 一 
个 “参数 块 ”， 其 内 容 如 下 ( 见 arch/1386/kernel/setup.c): 


151 /* 
152 * This is set up by the setup-routine at boot-time 
153 */ 


154 #define PARAM ((unsigned char *)empty zero page) 

155 H#define SCREEN INFO (*(struct screen info *) (PARAM+0)) 

156 define EXT MEM K (*(unsigned short *) (PARAM+2)) 

157 define ALT MEM K Ck(unsigned long *) (PARAMtOx1e0)) 

158 &define E820 MAP NR Ck(charx) (PARAM+E820NR) ) 

159 ttdefine E820 MAP ((struct e820entry *) (PARAM+E820MAP) ) 

160 #define APM BIOS INFO (*(struct apm bios info *) (PARAM+Ox40) ) 
161 #define DRIVE INFO (*(struct drive info struct *) (PARAM+0x80) ) 
162 define SYS DESC TABLE (*(struct sys desc table struct*) (PARAM+Oxa0) ) 
163 tdefine MOUNT ROOT RDONLY (* (unsigned short x) (PARAM-Ox1F2)) 
164 &define RAMDISK FLAGS (*(unsigned short *) (PARAM+0x1F8)) 

165 #define ORIG ROOT DEV (*(unsigned short *) (PARAM+Ox1FC)) 

166 #define AUX DEVICE INFO (*(unsigned char *) (PARAM+0x1FF) ) 

167 #define LOADER TYPE (*(unsigned char *) (PARAM*0x210)) 

168 #define KERNEL START (*(unsigned long *) (PARAM+0x214) ) 

169 Hdefine INITRD START (*(unsigned long *) (PARAM+0x218)) 

170 H#define INITRD SIZE (*(unsigned long *) (PARAM+0x21c)) 

171 #define COMMAND LINE ((char *) (PARAM+2048) ) 

172 #define COMMAND LINE SIZE 256 


Bie TAS HOE. DEG a oR Ek Be HK FER 

至 此 ， 需 要 由 主 CPU 单独 进行 的 操作 ， 即 上 述 的 二 件 事情 都 已 经 完成 了 。 从 标号 checkCPUtype 
开始 ， 又 是 所 有 CPU 公共 的 代码 了 ( 见 116 行 的 jmp 指令 )。 我 们 继续 往 下 看 。 
[startup 32( )] 


172 #ifdef CONFIG SMP 
173 checkCPUtype: 


174 #endif 

iTo 

176 mov] $-1, X86 CPUID # -1 for no CPUID initially 
177 

178 /* check if it is 486 or 386. */ 

179 /* 
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* XXX - this does a lot of unnecessary setup. Alignment. checks don’ t 
* apply at our cpl of 0 and the stack ought to be aligned already, and 
* we don t need to preserve eflags. 


*/ 
movl $3, X86 # at least 386 
pushf 1 # push EFLAGS 
popi %eax # get EFLAGS 
mov] %eax, %ecx # save original EFLAGS 
xorl $0x40000, %eax # flip AC bit in EFLAGS 
pushl %eax # copy to EFLAGS 
popf 1 # set EFLAGS 
pushfl 4 get new EFLAGS 
popl %eax # put it in eax 
xorl %ecx, %eax # change in flags 
andl $0x40000, %eax # check if AC bit changed 
je is386 


movl $4, X86 # at least 486 

moy] %ecx, peax 

xorl $0x200000, %eax # check ID flag 

pushl %eax 

popfl # if we are on a straight 486DX, SX, or 
pushfl # 487SX we can’t change it 
popl %eax 

xorl %ecx, %eax 

pushl %ecx # restore original EFLAGS 
popfl 

andl $0x200000, %eax 

je 18486 


/* get vendor info */ 

xorl peax, %eax # call CPUID with 0 -> return vendor ID 
cpuid 

mov! %eax, X86 CPUID # save CPUID level 

movl %ebx, X86 VENDOR ID # lo 4 chars 

movl %edx, X86 VENDOR ID+4 # next 4 chars 

movl %ecx, X86 VENDOR ID+8 # last 4 chars 


orl *eax, %eax # do we have processor info as well? 

je is486 

movl $1, %eax # Use the CPUID instruction to get CPU type 
cpuid 

movb %al, %c1 # save reg for future use 

andb $0x0f, %ah # mask processor family 

movb %ah, X86 

andb $0xf0, *al # mask model 
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228 shrb $4, %al 

229 movb %al, X86 MODEL 

230 andb $0x0f, %cl # mask mask revision 
231 movb %cl, X86 MASK 

232 movl %edx, X86 CAPABILITY 

233 

234 is486: 

235 movl %cr0, %eax # 486 or better 

236 andl $0x80000011, %eax # Save PG, PE, ET 

237 orl $0x50022,%eax # set AM, WP, NE and MP 
238 jmp 2f 

239 

240 is386: pushl %ecx # restore original EFLAGS 
241 popf 1 

242 movl %cr0, %eax # 386 

243 andl $0x80000011,%eax # Save PG, PE, ET 

244 orl $2, %eax # set MP 

245 2: movl %eax, %cr0 

246 call check_x87 


读者 知道 ，i386 是 一 个 CPU 芯片 系列 ， 其 中 包括 了 80386. 80486 以 及 后 来 的 各 种 Pentum 芯片 。 
AT ike AK CPU 芯片 上 运行 的 软件 知道 是 在 什么 样 的 CPU 上 运行 ， 在 各 种 CPU 芯片 中 都 提供 了 一 
些 手 段 ， 让 软件 可 以 在 运行 中 加 以 测试 。 可 是 ，Intel 并 没有 从 一 开始 就 有 一 个 全 杠 的 考虑 ， 必 i 只 是 到 
f Pentium 才 为 此 专 设 了 一 条 指令 cpuid。 这 条 指令 在 寄存 器 Weax 中 返回 CPU GA ATRIA. HS. 
版 本 等 信息 。 读 者 在 前 一 章 中 还 看 到 ， 这 条 指令 还 起 着 存储 名 路 障 的 作用 。 至 于 Pentium 以 前 的 处 理 
器 ， 即 80386 和 80486， 则 柴 通 过 一 些 特殊 的 操作 才能 知道 是 哪 种 处 埋 嚣 。 我 们 在 这 里 就 不 深入 到 这 
些 细节 中 去 了 。 至 十 246 行 ， 则 是 测试 与 CPU 配套 的 浮 点 协 处 理 嚣 80387 EBET. 

我 们 在 前 面 讲 过 ，CPU 在 进入 startup_32( ) 时 已 经 过 行 寺 保护 模式 。 既 然 运行 于 保护 模式 ， 导 就 有 
个 全 局 段 描述 表 ， 而 控制 寄存 器 GDTR 则 指向 这 个 全 局 段 描述 表 。 可 是 ， 那 时 候 的 全 局 段 描述 表 只 是 
临时 的 ， 由 引导 辅助 程序 setup 设置 。 至 此 为 止 ，CPU :站 在 用 这 个 临时 的 全 局 段 描述 表 。 现 在 ， 则 
要 改 成 使 用 内 核 正式 的 全 局 段 描 述 表 了 。 同 样 ， 此 前 的 控制 寄存 瞧 IDTR 也 指向 临时 的 中 断 描述 表 ， 
现在 也 要 转 到 内 核 正 式 的 中 断 描 述 表 了 。 这 些 事 也 是 每 个 CPU 都 此 做 的 。 


[startup_32( )] 


247 #ifdef CONFIG SMP 


248 incb ready 

249 &endif 

250 lgdt gdt descr 

251 lidt idt descr 

252 ljmp $( | KERNEL CS), $1f 

253 1: movl $( KERNEL DS), %eax  # reload all the segment registers 
254 movl %eax, %ds # after changing gdt. 

255 movl %eax, es 

256 movil %eax, fs 
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257 movl %eax, gs 

258 &ifdef CONFIG SMP 

259 movi $( KERNEL DS), %eax 

260 movl %eax, ss 8 Reload the stack pointer (segment only) 
261 Helse 

262 lss stack start, %esp # Load processor stack 

263 Bendif 

264 xorl %eax, %eax 

265 lldt %ax 

266 cld # gcc2 wants the direction flag cleared at all times 


指令 lgdt XI lidt 分 别 设 置 CPU 的 “全 局 段 描述 表 寄 存 器 ”GDTR 和 “路 断 描 述 表 寄存 咒 ”IDTR。 
实际 上 装 入 这 些 寄存 器 的 是 一 个 Xgt_desc_struct 数据 结构 ， 此 数据 结构 的 类 型 定义 见 
include/asm-1386/desc.h: 


51 struct Xgt desc struct { 


52 unsigned short size; 
53 unsigned long address ^ attribute | ((packed)) ; 
54  j; 


结构 中 首先 是 16 位 的 字段 size， 表示 描述 表 的 人 人 小， 然后 才 是 具体 描述 表 的 地 址 。 这 两 个 数据 结构 
的 空间 分 配 也 是 在 arch/i386/kernel/head.S 中 定义 的 : 


372 idt_descr: 


373 .word IDT ENTRIES*8~1 H idt contains 256 entries 
374 SYMBOL NAME (idt) : 

375 . long SYMBOL NAME(idt table) 

376 

377 .word 0 

378 gdt descr: 

379 . word GDT ENTRTES*8-1 

380 SYMBOL, NAME (gdt) : 

381 .long SYMBOL NAME(gdt table) 


中 断 描 述 表 idt table 的 内 容 已 经 在 前 面 设置 好 , 现在 又 设置 了 IDTR, 就 完成 了 对 中 断 机 制 的 准备 ， 
只 差 打 开 中 断 了 。 
全 局 段 描述 表 gdt_table 的 定义 也 在 同 -文件 中 : 


450 ENTRY (gdt_table) 


45] . quad 0x0000000000000000 /* NULL descriptor */ 

452 . quad 0x0000000000000000 /* not used */ 

453 . quad 0x00cf9a000000f TTL /* 0x10 kernel 4GB code at 0x00000000 */ 
454 . quad 0x00cf92000000f TTF /* 0x18 kernel 4GB data at 0x00000000 */ 
455 .quad OxO0cffa000000ffff /* 0x23 user 4GB code at 0x00000000 */ 
456 .quad 0x00cff2000000f fff /* Ox2b user AGB data at 0x00000000 */ 
457 . quad 0x0000000000000000 /* not used */ 
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458 . quad 0x0000000000000000 /* not used */ 


由 于 改变 了 GDTR HAR, $e EUST PARU SE RRA W, 虽然 它们 的 内 容 其 实 并 无 改变 。 
全 于 “局 部 段 搞 述 表 ”， 则 Linux 内 核 并 个 使 用 局 部 段 ， 所 以 将 LDTR WV EX OCW 264—265 行 )。 

全 此 ， 初 始 化 的 第 一 阶段 已 经 完成 。 在 SMP 结构 的 系统 中 ， 主 CPU 和 次 CPU 的 代码 又 要 分 道 扬 
Er. BATE FA. 


[startup 32( )] 


261 #ifdef CONFIG SMP 


268 movb ready, %cl 

269 empb $1, %e 1 

270 je 1f # the first CPU calls start kernel 
271 # all other CPUs call initialize secondary 
272 call SYMBOL NAME (initialize secondary) 

273 jmp L6 

274 l: 

275 #endif 

276 call SYMBOL NAME(start kernel) 

277 L6: 

278 jmp L6 # main should never return here, but 
279 # just in case, we know what happens. 


在 SMP ARAT, HEE ready 对 已 经 执行 了 初始 化 第 一 阶段 的 CPU 进行 计数 ( 见 248 fT). 
E CPU 是 首先 执行 初始 化 第 一 阶段 的 ， 所 以 如 果 此 时 ready 为 1 就 表明 当前 CPU 是 主 CPU, UR 
Æ CPU. È CPU 在 完成 了 初始 化 第 一 阶段 以 后 还 任重道远 ， 所 以 在 276 行 调用 start_kernel( ) 继 续 进 
行 第 二 阶段 的 初始 化 。 而 次 CPU 则 是 “大 树 底下 好 乘凉 ” CPU 已 经 为 之 作 好 了 准备 ， 因 此 直接 就 
道 过 initialize_secondary( ) 转 入 其 空转 进程 ， 有 关 的 过 程 读 者 已 经 在 前 -一 章 中 看 到 过 了 。 不 过 ， 次 CPU 
的 运行 要 到 主 CPU 基本 上 完成 了 第 二 阶段 的 初始 化 时 才 会 启动 ， 而 此 主 CPU 在 每 启动 一 个 次 CPU 以 
后 都 会 等 待 其 完成 初始 化 。 


[startup_32( ) > initialize_secondary( )] 


468 /* 

469 * Everything has been set up for the secondary 
470 * CPUs - they just need to reload everything 

471 * from the task structure 

472 * This function must not return. 

473 */ 

474 void init initialize_secondary (void) 

475 { 

476 /* 

ATT * We don’ t actually need to load the full TSS, 
478 * basically just the stack pointer and the eip. 
479 */ 

480 


- 682 . 


第 10 章 系统 引导 和 初始 化 


481 asm volatile( 

482 “movl %0, %%esp\n\t” 

483 * imp #41" 

484 f 

485 -“r” (current->thread. esp), "r^ (current->thread. eip)) ; 
486  ] 


这 里 ， 次 CPU 的 跳 转 地 址 和 堆栈 指针 都 是 主 CPU 为 之 准备 好 的 。 

表面 上 看 来 ， 从 start_kernel( ) 或 initialize_secondary( ) 返 回 以 后 就 落 入 了 ^ P GER T3277 — 278 
行 )， 但 是 读者 将 会 看 到 对 这 两 个 函数 的 调用 是 不 会 返回 的 。 对 十 主 CPU 或 者 单 处 理 器 系统 中 的 CPU, 
下 面 就 是 系统 初始 化 的 第 二 阶段 了 。 


10.3 系统 初始 化 (第 二 阶段 ) 


从 某 种 意义 上 说 ， 函 数 start_kernel( ) 就 好 像 一 般 可 执行 程序 中 的 主 函 数 main( )， 系 统 在 进入 这 个 
函数 之 前 已 经 进行 了 - 些 最 低 限 度 的 初始 化 ， 为 这 个 肖 数 的 执行 建立 起 了 一 个 环境 ， 创 造 了 必要 的 条 
件 。 当 然 ， 这 个 函数 还 要 继续 进行 内 核 的 初始 化 ， 实 际 上 甚 全 可 以 说 内 核 的 初始 化 这 才 真正 开始 。 但 
是 这 种 初始 化 与 在 此 之 前 的 初始 化 毕 竞 不同， 是 较 高 层次 上 的 初始 化 。 这 也 是 为 什么 从 这 里 开始 的 代 
码 基本 上 是 C 代码 ， 而 在 此 之 前 则 都 是 汇编 代码 的 原因 。 这 个 消 数 的 代码 看 initmain.c 中 : 


516 /* 

517 * Activate the first processor. 

518 */ 

519 

520 asmlinkage void __init start kernel(void) 
521 { 

522 char * command_line; 

523 unsigned long mempages; 

524 extern char saved command line[ ]; 
525 /* 

526 * Interrupts are still disabled. Do necessary setups, then 
527 * enable them 

528 */ 

529 lock kernel( ); 

530 printk(linux banner): 

531 setup arch(&command line); 


这 里 首先 通过 printk( ) 在 屏幕 上 显示 出 内 核 的 版 本 信息 ， 这 些 信息 是 在 编译 时 生成 的 ， 共 体 可 参考 
init/version.c FINAKA A, WAAR: 


24 const char *linux_banner = 
25 "Linux version ^ UTS RELEASE " (^ LINUX COMPILE BY “@” 
26 LINUX COMPILE HOST ”) (^ LINUX COMPILER ^) " UTS VERSION ^n^; 
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然后 足 setup_arch( )。 顾 名 思 义 ， 这 个 函数 所 处 理 的 是 系统 结构 的 设置 ， 这 就 是 初始 化 第 一 阶段 的 
主体 。 不 过 我 们 企 这 里 并 不 关心 为 “ 些 特殊 要 求 和 情况 所 作 的 考虑 ， 所 以 从 阔 数 中 抽 去 了 “: 些 条 件 编 
VERUS. Bilal, CONFIG_VISWS 是 为 SUN 公司 的 工作 站 而 设 的 ，CONFIG_BLK_DEV_RAM E% 
RAMDISK 曾 设 的 ， 这 些 部 不 在 我 们 关心 之 列 ， 有 兴趣 或 需要 的 读者 可 以 自行 阅读 有 关 代 伺 。 丽 数 
setup_arch( ) 的 代 公 在 arch/i386/kernel/setup.c T, RORE. 


[start_kernel( ) > setup_arch( )] 


598 void init setup arch(char **emdline p) 

599 | 

600 unsigned long bootmap size; 

601 unsigned long start pfn, max pfn, max low pfn; 
602 int i; 

603 


604 #ifdef CONFIG VISWS 


606 Hendif 


607 

608 ROOT DEV = to_kdev_t (ORIG ROOT DEV); 

609 drive info = DRIVE INFO; 

610 screen info - SCREEN INFO; 

611 apm info. bios = APM BIOS INFO: 

612 if( SYS DESC TABLE. length !- 0) { 

613 MCA bus = SYS DESC TABLE. table[3] &0x2; 
614 machine id - SYS DESC TABLE. table[0]: 
615 machine submodel id - SYS DESC TABLE. table[1]; 
616 BIOS revision = SYS DESC TABLE. table[2]; 
617 } 

618 aux device present - AUX DEVICE INFO; 

619 


620 #ifdef CONFIG BLK DEV RAM 


624 &endlf 
625 setup memory region( ); 
626 


代码 中 的 ROOT_DEYV 是 个 全 局 量 ， 显 而 切 见 是 恨 设 备 的 设备 号 ,而 ORIG ROOT DEV 就 是 前 述 
参数 其 中 的 一 个 16 位 没 备 号 ， 代 表 着 从 中 引导 内 核 映 象 的 设备 ， 由 引导 辅助 程序 setup 在 引导 时 加 以 
设置 并 传递 给 内 核 。 这 里 先 假定 引导 设备 就 是 根 没 备 ， 如 果 在 引导 命令 行 中 另 有 指定 ， 则 在 后 面 处 理 
命令 行 时 再 加 修正 。 其 他 的 drive info. screen info 等 也 与 此 类 似 ， 有 关 的 信息 均 来 自 参 数 块 ， 实 际 上 
龙 来 日 BIOS。 其 中 MCA. bus 表示 系统 中 是 否 了 配备 了 PS/2 的 Micro Channel 总 线 ， 而 machine id 和 
machine submodel id lll 5d 4A at RK PC 机 的 标号 。 

如 前 所 述 ，BIOS 的 功能 并 不 只 是 引导 操作 系统 内 核 ， 还 担负 着 加 电 以 后 的 自 检 和 对 资源 的 打 描 换 
测 ， 其 中 鳄 包括 了 对 物理 内 存 的 自 检 和 扫描 (想必 读者 看 开机 时 看 到 过 BIOS 在 此 阶段 中 显示 的 信息 )， 
对 于 在 这 个 阶段 中 获得 的 内 存 信 息 可 以 通过 BIOS 调用 “int 0x15” 加 以 查询 。 由 二 在 Linux 内 核 中 不 
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OE EE uss 
能 作 BIOS 调用 ， 所 以 由 setup 在 引导 阶段 代为 查询 ， 并 根据 获得 的 信息 生成 - 幅 物 理 内 存 构成 图 ， 称 
为 e820 图 ， 再 通过 参数 块 传 给 内 核 ， 使 内 核能 知道 系统 中 内 存 资源 的 配置 。 之 所 以 称 为 e820 IE, JE 
因为 在 通过 “int 0x15” 查询 内 存 的 构成 时 要 把 调用 参数 之 一 设置 成 0xe820。 这 里 的 月 的 是 把 这 个 图 
复制 到 - -个 安全 的 地 方 ， 因 为 参数 块 只 是 暂时 存放 在 empty. zero. page 中 ,这 个 页 面 最 后 要 几 于 其 他 日 
的 。 


[start kernel( ) > setup. arch( ) > setup memory region( )] 


491 /* 

492 * Do NOT EVER look at the BIOS memory size location. 
493 * It does not work on many machines. 

494 */ 

495  #define LOWMEMSIZE( ) — (0x9f000) 

496 

497 void | init setup memory region (void) 

498 { 

499 char *who = “BIOS-e820” ; 

500 

501 /* 

502 * Try to copy the BJOS-supplicd E820-map. 

503 * 

504 * Otherwise fake a memory map; one section from Ok-»640k, 
505 x the next section from lmb-^appropriate mem k 
506 */ 

507 if (copy e820 map(E820 MAP, E820 MAP NR) < 0) { 
508 unsigned long mem sizo; 

509 

510 /* compare results from other methods and take the greater */ 
511 if (ALT MEM K « EXT MEM R) { 

512 mem size = EXT MEM K; 

513 who = "B10S-88"; 

514 ) else 1 

515 mem size = ALT MEM K; 

516 who = "BIOS-e801^; 

517 j 

518 

519 c820. nr map = 0; 

520 add memory region(0, LOWMEMSIZE( ), E820 RAM); 
521 add memory region(HIGIl MEMORY, (mem size << 10) - HIGH MEMORY, E820 RAM); 
522 } 

523 printk(/BIOS-provided physical RAM map: W^); 

524 print memory map (who) ; 

525 | /* setup memory region */ 


为 方便 阅读 ， 我 们 把 参数 块 中 与 此 有 关 的 常数 的 定义 列 出 于 F Olinclude/asm-1386/e820.h. Hil 
arch/i386/kernel\setup.c) : 
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15 #define E820MAP 0x2d0 /* our map */ 
16 #define E820MAX 32 /* number of entries in E820MAP */ 
IT define E820NR Oxle8 /* # entries in E820MAP */ 


158 #define E820 MAP NR (*(char*) (PARAM+E820NR) ) 
159 define E820 MAP ((struct e820entry *) (PARAM+E820MAP)) 


其 中 ，E820_MAP 是 个 e820entry 数据 结构 指针 ， 存 放 在 参数 块 中 位 移 为 0x2d0 的 地 方 ， 这 种 数据 
结构 的 定义 在 include/asm-i386/e820.h H1; 


28 struct e820map { 


29 int nr map; 

30 struct e820entry { 

3l unsigned long long addr; /* start of memory segment */ 
32 unsigned long long size; /* size of memory segment */ 
33 unsigned long type; /* type of memory segment */ 

34 } map[E820MAX] ; 

db. ye 

36 


37 extern struct e820map e820: 


出 此 可 见 ， 所 谓 “map” 是 个 e820entry 结构 数组 ， 数 组 中 的 每 一 项 都 是 对 一 个 物理 内 存 区 间 的 
描述 。 代 码 中 先 通过 copy_e820_map( ) 复 制 ， 如 打发 现 数 组 中 的 信息 可 疑 ， 就 放弃 复制 而 根据 参数 块 中 
的 其 他 信息 生成 ( 猜 浏 ) 出 有 关 的 内 容 (508~521 行 )。 函 数 copy_e820_map( ) 的 代码 也 在 setup.c F: 


[start_kernel( ) > setup_arch( ) > setup memory region( ) > copy_e820_map( )] 


440 /* 

44] * Copy the B10S e820 map into a safe place. 

442 x 

443 * Sanity-check it while we're at it.. 

444 * 

445 * If we're lucky and live on a modern System, the setup code 

446 * will have given us a memory map that we can use to properly 
441 * sei up memory. If we aren't, we'll fake a memory map. 

448 * 

449 * We check to see that the memory map contains at least 2 elements 
450 * before we' il use it, because the detection code in setup. S may 
451 * noi be perfect and most every PC known to man has two memory 
452 * regions: one from 0 to 640k, and one from lmb up. (The IBM 
453 * thinkpad 560x, for example, does not cooperate with the memory 
454 * detection code.) 

455 */ 


456 static int | init copy e820 map (struct e820entry * biosmap, int nr map) 
457 { 

458 /* Only one memory region (or negative)? Ignore it */ 

459 if (nr map < 2) 
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460 return 一 上 ; 

461 

462 do { 

463 unsigned long long start = biosmap->addr; 

464 unsigned long long size = biosmap-?size; 

465 unsigned long long end - start ! size; 

466 unsigned long type = biosmap->type; 

467 

468 /* Overflow in 64 bits? Ignore the memory map. */ 
469 if (start > end) 

470 return “1; 

471 

472 /* 

473 * Some BIOSes claim RAM in the 640k - 1M region. 
474 * Not right. Fix it up. 

475 */ 

416 if (type == E820 RAM) { 

ATT if (start < Ox100000ULL && end > OxAOOOOULL) | 
478 if (start < OxAO000ULL) 

479 add memory region(start, OxAQOQOULI. start, typo); 
480 if (end <= Ox100000ULL) 

481 continue; 

482 start = 0x100000ULL ; 

483 size - end - start; 

484 } 

485 } 

486 add memory region(start, size, type); 

487 ) while (biosmap++, --nr map); 

488 return 0; 

489  ] 


如 上 所 述 , 每 个 e820entry 结构 都 是 对 -个 物理 内 存 区 间 的 描述 。 从 数据 结构 的 定义 中 也 可 以 看 出 ， 
.个 物理 内 存 区 闻 必 须 是 同一 类 型 的 。 如 果 有 一 片 地 址 连续 的 物理 内 存 空 间 ， 其 一 部 分 是 RAM, if) 
一 部 分 是 ROM， 那 就 要 分 成 两 个 区 间 。 即 使 同属 RAM， 如 果 其 中 一 部 分 要 保留 用 于 特殊 目的 ， 那 也 
属 十 一 个 不 同 的 分 区 。 文 件 include/asm-i386/e820.h 中 定义 了 4 种 个 同 的 类 型 ， 


19 Hdefine E820 RAM 1 
20 üdefine E820 RESERVED 2 
21 #define F820 ACPI 3 /* usable as RAM once ACPI tables have been read */ 
22 #define E820 NVS 4 


其 小 E820_ NVS 家 示 “Non-Volatile Storage”, BI “PER” Tiai Etfi ROM. EPROM, Flash 
存储 器 等 等 。 

在 PC 机 中 ， 对 于 最 初 1MB 存储 空间 的 使 用 是 特殊 的 。 开 头 640KB( 即 0x0-0x9FFFP) 为 RAM. A 
0xA0000 开始 的 空间 则 用 于 CGA. EGA, VGA SRE ko 现在 已 经 很 少 有 人 几 EGA 或 VGA〔 风 不 用 
提 CGA) 了 ,但 是 不 管 是 什么 图 形 卡 ,开机 时 总 是 工作 于 EGA 或 VGA 模式 ,从 0xF0000 并 始 到 0xFFFFF， 
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即 最 高 的 64KB， 那 就 是 在 EPROM 或 Flash 存储 器 中 的 BIOS。 所 以 ， 只 要 有 BIOS 存在 ， 就 件 少 也 得 
有 两 个 区 间 , WR nr map 小 于 2 就 一 定 错 了 。 此 外 ,如果 一 个 区 间 的 起 点 地 址 加 革 长 度 以 后 反 府 小 了 ， 
邦 就 说 明 发 生 了 溢出 ,一 个 64 位 的 地 址 (类 型 为 unsigned long long) 发 生 江 出 当然 一 定 是 错 了 ,由 十 BIOS 
和 图 形 卡 存储 空间 的 存在 ， 本 来 可 以 是 连续 、 均 质 的 RAM 空间 就 不 连续 、 不 均匀 了 。 当 然 ， 现 在 已 
经 不 会 冉 有 人 会 糊涂 到 有 意 地 设计 出 这 么 一 种 存储 空间 结构 了 。 之 所 以 会 有 这 样 的 结构 ， 是 因为 在 PC 
的 早期 人 们 觉得 “个 人 计算 机 ”有 640KB 的 RAM 空间 已 经 是 匪夷所思 ， 而 且 当 时 Intel X86 系列 CPU 
的 总 的 寻 址 能 力也 只 有 IMB (当时 有 一 -种 很 流行 的 处 理 器 Z80， 只 有 64KB 的 导 址 能 力 )。 技 术 的 发 展 
往往 会 使 人 “大 跌眼镜 ”， 使 原来 合理 而 有 权威 的 设计 变 得 可 笑 。 后 米 ，1MB 的 边界 很 快 就 被 冲破 了 ， 
于 是 把 IMB 以 上 的 空间 称 为 “HIGH_MEMORY”。 这 个 称 峡 : 直 沿 用 到 了 现在， 代码 中 的 常数 
HIGH. MEMORY 就 定义 为 (1024X1024)。 现 在 ， 配 备 了 128MB RAM 的 PC 机 已 经 是 很 普通 的 了 。 但 
是 ， 作 为 一 种 系统 结构 ， 在 最 初 1MB 的 RAM 空间 中 还 得 留 卡 这么 个 空洞 ， 否 则 使 不 能 与 业已 存在 的 
硬件 和 软件 兼容 。 所 以 ， 代 码 中 对 于 每 个 区 间 都 调用 add_memory_region( )， 将 其 参数 复制 到 数据 结构 
e820 内 的 数组 中 。 而 关键 在 十 ， 当 一 个 RAM 区 问 的 起 点 在 0xA0000 以 下 ， 而 终点 在 IMB 以 上 时 ， 就 
要 将 这 个 区 间 拆 开 成 两 个 区 间 ， 忠 间 跳 过 从 0xA0000 到 IMB 边界 之 间 的 于 一 部 分 。 不 过 ， 让 特殊 的 
情况 下 也 可 以 通过 引导 命令 行 中 的 选择 项 改变 这 种 空间 结构 。 
回 到 setup_arch( ) 的 代码 中 ， 继 续 往 下 看 。 


[start kernel( ) > setup_arch( )] 


627 if (!MOUNT ROOT RDONLY) 

628 root mountflags &- "MS RDONLY; 

629 init mm. start code = (unsigned long) & text: 
630 init mm. end, code = (unsigned long) & etext: 
631 init mm. end data = (unsigned long) & edata; 
632 init mm.brk - (unsigned long) & end; 

633 

634 code resource.start = virt to bus(& text); 
635 code resource.end = virt to bus(& etexi)-1; 
636 data resource.start = virt to bus(& etext); 
637 data resource. end = virt to bus(& edata)-1; 
638 

639 parse mem cmdline (cmdline p); 

640 


641 #define PFN_UP(x)  (((x) + PAGE SIZE-1) >> PAGE SHIFT) 
642 #define PFN DOWN(x) ((x) >> PAGE SHIFT) 
643 Hdefine PFN PHYS(x) ((x) << PAGE SHIFT) 


644 
645 /* 

646 * 128MB for vmalloc and initrd 

647 */ 

648  #define VMALLOC RESERVE (unsigned long) (128 << 20) 

649 &define MAXMEM (unsigned long) (~PAGE OFFSET-VMALLOC_RESERVE) 
650  #define MAXMEM PFN PFN DOWN (MAXMEM) 

651 . &define MAX NONPAE PEN (I << 20) 

652 
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653 /* 

654 * partially used pages are not usable - thus 
655 * we are rounding upwards: 

656 */ 

657 start pfn = PFN UP(  pa(& end)) ; 

658 


除了 对 数据 结构 init. mm 和 code resource 的 设置 以 外 ,这 里 主要 是 对 parse. mem, emdline( ) 的 调用 。 
数据 结构 init mm 是 系统 中 第 一 个 进程 swapper 的 存储 空间 控制 结构 ,也 是 整个 内 核 的 mm. struct 数据 
结构 。 这 个 数据 结构 代表 着 系统 空间 ， 不 管 是 什么 进程 ， 只 要 一 进入 内 核 就 进入 了 系统 空间 ， 就 受 这 
个 数据 结构 控制 。 

在 特殊 的 情况 下 ， 有 的 系统 可 能 有 特殊 的 RAM 空间 结构 ， 此 时 可 以 通过 引导 命令 行 中 的 选择 项 
改变 存储 空间 的 迪 辑 结构 ， 使 其 正确 地 反映 内 存 的 物理 结构 。 也 数 parse_mem_cmdline( ) 的 作用 就 是 分 
析 命 令 行 中 的 选择 项 ， 并 据 此 对 数据 结构 e820 中 的 内 容 作 出 修正 。 这 个 函数 的 代码 在 
arch/i386/kernel/setup.c 小 ， 但 是 我 们 不 深入 进去 了 ， 只 是 把 代码 中 的 一 段 注释 抄录 才 卜 ， 让 读者 对 这 


539 /* 

540 * “mem=nopentium’ disables the 4MB page Lables. 

541 * "mem-XXX[kKmM]" defines a memory region from IITGH MEM 
542 * to <mem>, overriding the bios size. 

543 * "mem-XXX[KkmM] GXXX[KkmM]" defines a memory region from 
544 * <start> to <start>+<mem, overriding the bios size. 
545 */ 


其 中 的 第 一 项 用 十 CPU Jy Pentium， 并 且 内 核 在 编 详 时 采用 了 36 位 地 址 (PAE 模式 )， 又 采用 了 
Pentium 的 PSE 功能 ， 即 采用 4MB 页 面 ， 但 是 在 引导 时 却 临时 决定 要 采用 4KB 页 而 的 情景 。 我 们 在 本 
书 中 只 关心 32 位 地 址 、 次 面 人 小 为 4KB 的 模式 , 有 闪存 或 有 需要 的 读者 日 可 对 PAE 和 PSE 加 以 研究 。 

然后 ,代码 中 就 弛 定义 了 了 一些 宏 操作 和 常数 ,这 些 定义 都 是 下 而 要 用 到 的 ,首先 就 是 用 在 对 start_pfn 
的 计算 《pfn ARE “Page Frame Number” 的 缩写 )， 这 个 变量 的 值 弟 个 页 面 号 ， 代 表 着 内 存 中 内 核 映 
象 以 上 第 一 个 可 以 动态 分 配 的 页 面 。 内 核 映 象 的 终点 是 end， 这 是 由 gee 在 编译 和 连接 时 日 动 竺 成 的 ， 
从 它 的 地 址 往 上 就 是 可 以 动态 分 配 的 空间 了 ， 宏 操作 PEN UP( ) 根 据 这 个 地 址 计算 出 它 上 而 的 第 个 
页 面 边 界 。 

继续 看 setup_arch( ) 的 代码 。 


[start kernel( ) > setup_arch( )] 


659 /** 

660 * Find the highest page frame number we have available 
661 */ 

662 max pfn - 0; 

663 for (i = 0; i < e820. nr map; i++) { 

664 unsigned long start, end; 

665 /* RAM? */ 
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if (e820.map[i].type !- E820 RAM) 
continue; 
start = PFN_UP (e820. mapli]. addr) ; 
end = PFN DOWN (e820. map[i].addr + e820. mapli]. size); 
if (start >= end) 
continue; 
if (end > max pfn) 


max pfn - end; 
} 
/* 
* Determine low and high memory ranges: 
*/ 


max iow pfn = max_pfn; 
if (max low pfn > MAXMEM PFN) f 
max low pfn = MAXMEM PFN; 
Rifndef CONFTG HTGHMEM 
/* Maximum memory usable is what is directly addressable */ 
printk(KERN WARNING "Warning only %ldMB will be used. W^, 
MAXMEM>>20) ; 
if (max pfn > MAX NONPAE PFN) 
printk(KERN WARNING "Use a PAE enabled kernel. m^); 
else 
printk(KERN WARNING "Use a HIGHMEM enabled kernel. \n”); 
Helse /* !CONFTG_HIGHMEM */ 
Hifndef CONFIG X86 PAE 
if (max pfn > MAX NONPAE PFN) { 
max pfn = MAX NONPARE PEN; 
printk (KERN WARNING “Warning only 4GB will be used. n^); 
printk (KERN WARNING "Use a PAE enabled kernel. \n”); 
} 
Hendif /* 'CONFIG X86 PAE */ 
#endif /* !CONFIG HIGHMEM */ 
} 


#ifdef CONFIG IITGHMEM 
highstart pfn = highend pfn - max pfn; 
if (max pfn > MAXMEM PFN) { 
highstart pfn = MAXMEM PEN; 
printk(KERN NOTICE "*1dMB HIGHMEM available. Wn, 
pages to mb(highend pfn - highstart pfn)): 
} 
fendi f 


在 数据 结构 e820 中 积累 起 各 个 物理 内 存 区 问 的 信息 以 后 ,要 从 这 些 信息 中 归纳 出 一 项 重要 的 数据 ， 
是 RAM 空间 的 顶点 max_pfn。 代 码 中 通过 A for 循环 扫描 e820 中 的 数组 , 通过 比较 和 计算 得 出 


此 项 数据 。 宏 操作 PFN_UP( ) 和 PFN_DOWN( ) 的 定义 见 上 上面 的 641 和 642 行 ， 作 用 是 将 内 存 地 址 转换 
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成 页 面 号 ， 内 此 max pfn 所 代表 的 是 系统 中 最 高 的 RAM Wil. Act, Rhee) DMEM AWE TS 
不 光 取 决 于 物理 上 的 配备 以 及 整个 地 址 空间 的 大 小 ， 还 进一步 受到 内 核 的 虚 存 空间 ， 员 所 谓 系统 空间 
大 小 的 限制 ,读者 在 第 2 章 中 曾 看 到 , Linux 的 内 核 将 整个 32 位 地 址 空间 分 成 两 部 分 , 其 中 0xC0000000 
以 上 的 IGB 为 系统 空间 ， 从 系统 空间 到 物理 内 存 的 映射 基本 上 是 线性 上 映射 。 如果 物 理 内 存 的 大 小 超过 
了 1GB， 就 不 能 从 内 核 中 访问 到 整个 物理 内 存 。 另 一 方面 ， 虽 然 从 系统 空间 到 物理 内 存 的 映射 基本 上 
是 线性 映射 、 因 而 不 会 将 同一 物理 内 存 页 面 重复 地 映射 到 系统 空间 中 ,但 也 还 是 有 例外 的 。 我 们 在 第 2 
章 中 提 到 过 vmalloc( )， 它 就 是 在 原 有 的 线性 映射 以 外 另行 分 配 据 系 统 空间 《虚拟 地 址 )， 并 建立 起 
与 物理 页 面 的 有 映射。 此外， 如 果 采 用 RAMDISK， 则 也 有 类 似 的 情况 。 这 样 ， 由 于 同一 物理 负面 有 可 
g 耗 用 - -个 以 上 的 虚 存 页 面 , 可 以 在 系统 空间 中 直接 (不 需要 通过 临时 改变 映射 ) 访问 的 物理 页 面 数 量 
就 又 减少 了 ， 不 过 这 一 部 分 虚 存 空间 的 大 小 限于 128MB。 肉 此， 从 可 以 被 内 核 直 接 访问 的 角度 ， 理 论 
上 最 大 的 RAM 空间 容量 为 1024MB 一 128MB = 896MB， 这 就 是 常数 MAXMEM . HARRIS A 
MAXMEM_PFN。 这 个 数值 有 可 能 小 于 max_pfn， 所 以 男 有 一 个 变量 max_low_pfn 用 米 记 录 这 个 数值 。 
下 面 是 几 个 有 关 常 数 的 定义 ， 分 别 见于 arch/i386/kernel/setup.c 和 include/asm-i386/page.h: 





645 /* 

646 * 128MB for vmalloc and initrd 

647 */ 

648  #define VMALLOC RESERVE (unsigned long) (128 << 20) 

649  #define MAXMEM (unsigned long) (-PAGE_OFFSET-VMALLOC RESERVE) 
650 . &define MAXMEM PFN PFN. DOWN (MAXMEM) 

81 #define . PAGE OFFSET (0xC0000000) 


所 以 ， 对 于 Linux 内 核 ， 如 果 系 统 中 配备 了 896MB 以 上 的 RAM, ME SERRE 32 位 的 寻 址 能 力 ， 
此 时 要 选用 编译 选择 项 CONFIG_HIGHMEM， 注 意 这 里 所 谓 HIGHMEM 是 指 4GB 虚 存 空间 ， 而 个 是 
前 面 讲 的 1MB， 不 柴 搞 混淆 了 。 从 代码 中 的 682 一 698 行 可 以 看 出 ， 如 果 了 配备 了 896MB 以 上 的 RAM, 
而 又 不 选用 CONFIG_HIGHMEM， 则 只 能 使 用 其 中 的 896MB。 如 果 选 用 了 CONFIG_HIGHMEM， 则 
又 要 看 是 省 选用 Pentium 的 PAE 模式 ， 那 些 我 们 就 不 关心 了 ， 反 正 现在 大 概 还 没有 多 少 人 几 用 896MB 
以 上 的 物理 内 存 ( 几 年 以 后 也 许 又 要 大 跌眼镜 )。 还 要 指出 , 这 只 是 对 32 位 结构 的 1386 而 言 , 对 新 的 ia64 
结构 当然 要 另 作 别论 。 

我 们 再 往 下 看 。 





[start_kernel( ) > setup, arch( )] 


709 /* 

710 * Tnitialize the boot-time allocator (with low memory only): 

711 */ 

712 bootmap size = init_bootmem(start_pfn, max_low_pfn) ; 

713 

714 /* 

715 * Register fully available low RAM pages with the bootmem allocator. 
716 */ 

717 for (i = 0; i < e820. nr map; i++) { 

118 unsigned long curr pfn, last pfn, size; 
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719 
720 
721 
122 
723 
724 
125 
726 
727 
728 
729 
730 
731 
132 
133 
134 
135 
136 
737 
138 
739 
740 
741 
742 
743 
144 
145 
746 
(47 
148 
149 
750 
fol 
192 
153 
154 
750 
756 
757 
758 
759 
760 
761 
162 
763 
764 
765 
766 
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/* 
* Reserve usable low memory 
*/ 
if (e820. map[i]. type != E820 RAM) 
continue; 
/* 
* We are rounding up the start address of usable memory: 
*/ 


curr pfn = PFN UP(e820. mapli]. addr) ; 
if (curr_pfn >= max low pfn) 


continue; 
/* 
* ... and at the end of the usable range downwards: 
*/ 


last pfn = PFN DOWN (e820. map[i]. addr + e820.map[i].size); 


if (last pfn > max low pfn) 
last pfn = max low pfn; 


/* 
* .. finally, did all the rounding and playing 
* around just make the area go away? 
*/ 
if (last pfn <= curr pfn) 
continue; 


size = last pfn - curr pfn; 
free bootmem(PFN PHYS(curr pfn), PFN PHYS(size)); 
} 
/* 
* Reserve the bootmem bitmap itself as well. We do this in two 
* steps (first step was init bootmem( )) because this catches 
* the (very unlikely) case of us accidentally initializing the 
* bootmem allocator with an invalid RAM area. 
*/ 
reserve bootmem(HIGH MEMORY, (PFN PHYS(start pfn) + 
bootmap size + PAGE STZE-1) - (HIGH MEMORY)); 


/* 

* reserve physical page 0 - it's a special BIOS page on many boxes, 
* enabling clean reboots, SMP operation, laptop functions. 

*/ 

reserve bootmem(0, PAGE SIZE); 


Hifdef CONFIG SMP 
/水 
* But first pinch a few for the stack/trampoline stuff 
* FIXME: Don’t need the extra page at 4K, but need to fix 
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767 * trampoline before removing it. (see the GDI stuff) 

768 */ 

769 reserve bootmem(PAGE SIZE, PAGE SIZE); 

770 smp alloc memory( ); /* AP processor realmode stacks in low memory*/ 
TTi #endif 

772 

Tis &ifdef CONFIG X86 LO APIC 

774 /* 

775 * Find and reserve possible boot-time SMP configuration: 
776 */ 

777 find smp config( ); 

778 Bendif 

119 paging init( ); 


首先 通过 init beotmem( ) 为 物理 内 存 页 面 管理 机 制 的 建立 作 些 准备 ， 为 整个 物理 内 存 建 立 起 一 个 
页 面 位 图 。 这 个 位 图 建立 在 从 start_pfn 开始 的 地 方 。 也 就 是 说 ， 把 内 核 喘 象 终点 _end KIRATA 
用 作物 理 负 面 位 图 。 在 此 之 前 的 代 个 中 己 经 搞 清 楚 了 物理 内 存 项 点 所 在 的 页 面 号 是 max low. pfo, Bm 
以 整个 物理 内 存 的 页 而 号 -ETE 0 至 max_low_ptn 这 个 范 轩 内 。 可 是 ， 在 这 个 范围 中 可 能 有 空洞 ， 刀 
”方面 也 并 不 是 所 有 的 物理 内 存 页 面 都 可 以 动态 分 配 。 建 立 这 个 位 图 的 日 的 就 症 概 摘 清 楚 哪 一 些 物理 
内 存 页 面 是 可 以 动态 分 本 的 。 


[start_kernel( ) > setup_arch( ) > init_bootmem( )] 


283 unsigned long init init bootmem (unsigned long start, unsigned long pages) 
284 { 


285 max_low_pfn = pages; 

286 min low pfn = start; 

287 return(init bootmem core(&contig page data, start, 0, pages)); 
288} 


操作 的 主体 是 init_bootmem_core(), 这 个 函数 对 pg. data. t 数据 结构 contig_page_data 进行 初始 化 ， 
读者 山 经 在 第 2 章 的 “ 几 个 重要 的 数据 结构 和 函数 ”- 节 小 看 到 过 这 种 数据 结构 的 定义 。 每 个 pg_data_t 
数据 结构 都 代表 着 一 片 均匀 的 、 连 续 的 内 存 空 间 ， 称 为 一 个 “节点 ” 在 连 续 空 间 UMA 结构 中 只 有 一 
个 节点 contig_page_data, MZ NUMA 结构 或 不 连续 空间 UMA 结构 中 则 有 多 个 这 样 的 数据 结构 。 系 统 
中 各 个 节点 的 pg_data_t 数据 结构 通过 指针 node. next 连接 在 … 起 成 为 一 个 链 ， 全 局 量 pedat_list 则 指 中 
这 个 链 。 品 然 ，contig_page_data 是 链 中 的 第 一 个 节点 。 这 里 先 假定 整个 物理 内 人 存 空 间 为 均匀 的 、 连 续 
的 ， 以 后 车 发 现 这 个 假定 不 能 成 立 则 和 再 加 以 修 焉 ， 再 将 新 的 pg data t 结构 加 入 到 链 中 。 数 据 结构 
contig_page_data 的 初始 内 容 为 (mm/numa.c): 


14 static bootmem data t contig bootmem data; 
15 pg data t contig page data = | bdata: &contig bootmem data |; 


TE pg data t 结构 小 有 个 指针 bdata， 指 向 一 个 bootmem data t 数据 结构 ， 其 类 型 定义 如 下 


(include/linux/bootmem.h): 
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20 /* 

21 * node bootmem map is a map pointer - the bits represent all physical 
22 * memory pages (including holes) on the nodc. 

23 */ 

24 typedef struct bootmem data { 

25 unsigned long node boot start: 

26 unsigned long node low pfn; 

27 void *node bootmem map; 

28 unsigned long last offset; 

29 unsigned long last pos; 


30 ! bootmem data t; 


结构 中 的 node boot start 47s 3& Z5 | EAE ER A TE Vd TET CTI 5 9 | SASH), 
从 调用 init. bootmem, core( ) 时 的 参数 start 可 以 看 出 是 0; node low. pfn 则 表示 物理 内 存 的 顶点 ， 最 高 
不 起 过 896MB。 结构 中 的 指针 node bootmem map 指向 一 个 “保留 页 面 位 图 ”% 位 图 中 的 每 一 位 都 代表 
大 物理 内 存 中 一 个 需要 保留 ， 或 者 不 存在 ， 从 而 不 能 用 于 动态 分 配 的 页 面 。 函 数 init_bootmem_core( ) 
的 代码 在 mm/bootmem.c F: 


[start kernel( ) > setup arch( ) > init, bootmem( ) > init_bootmem_core( )] 


4l /* 

42 * Called once to set up the allocator itself. 

43 */ 

44 static unsigned long | init init bootmem core (pg data t *pgdat, 
45 unsigned long mapstart, unsigned long start, unsigned long end) 
46 { 

47 bootmem data t *bdata = pgdat-^bdata; 

48 unsigned long mapsize = ((end - start)+7)/8: 

49 

50 pgdat-»node next = pgdat list; 

bl pgdat list = pgdat; 

52 

53 mapsize = (mapsize + (sizeof(long) - 1UL)) & "^(sizeof(long) - 1UL): 
54 bdata-»node bootmem map = phys to virt(mapstart << PAGE SHIFT); 
55 bdata-?node boot start = (start << PAGE SHIFT); 

56 bdata->node low pfn = end; 

57 

58 /* 

59 * Initially all pages are reserved - setup arch( ) has to 

60 * register free RAM areas explicitly. 

61 */ 

62 memset(bdata-»node booimem map, Oxff, mapsize); 

63 

64 return mapsize; 

65 ] 


注意 这 里 参数 start 的 值 为 0, ifj mapstart HAAJ E E. Ez eR init, bootmem( ) 中 的 start, 即 内 核 映 
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每 以 上 第 一 个 页 面 的 起 点 ， 参 数 end 的 值 则 为 物理 内 存 的 项 扣 max_low_pfn。 

我 们 基本 上 把 这 个 鹃 数 以 及 setup_arch( ) 中 的 717~761 行 留 给 读者 莫 己 结合 着 阅读 。 这 里 只 作 简 
WA B UE B: 

函数 free. bootmem( ) 对 一 个 contig_page_data 结构 中 的 位 图 进行 操作 ， 将 其 中 的 某 些 位 清 0， 表 未 
相应 的 物理 内 存 页 面 可 以 投入 分 配 。 而 reserve_bootmem( ) 则 正好 相反 ， 一 开始 时 把 位 图 中 的 所 有 位 都 
设置 成 1， 假 定 全 部 都 不 能 用 于 动态 分 配 ， 然 后 根据 e820 数据 结构 中 的 内 容 以 及 一 些 特殊 的 区 间 和 页 
面 加 以 找补 。 其 中 特别 加 以 保留 的 有 : 


从 HIGH_MEMORY， 即 1MB 边界 开始 ， 直 到 (start_pfn + bootmap_size) 所 在 的 页 面 为 上 上。 这 
些 是 内 核 映 和 象 和 “保留 页 面 位 图 ”本 号 所 在 的 页 面 。 

页 面 0， 即 起 始 地 址 为 0 的 页 面 。BIOS 通常 用 这 个 页 面 保存 - 些 与 引导 以 及 BIOS FREAK 
的 信息 ， 所 以 也 要 加 以 保留 。 

对 于 SMP 结构 的 系统 ， 页 面 1， 即 起 始 地 址 为 PAGE_SIZE 的 页 面 也 要 保留 ， 次 CPU HAI 
行 时 需要 用 这 个 页 面 作为 “跳板 ”( 见 第 9 章 )。 

此 外 ， 还 有 一 些 特殊 用 途 的 页 面 ， 例 如 用 作 RAMDISK 的 页 面 。 不 过 这 些 贞 面 不 是 在 这 儿 保 
留 的 。 


对 于 采用 CONFIG_X86 IO_APIC 的 SMP 系统 ， 还 要 通过 find_smp_config( ) 寻 找 由 BIOS 和 引子 
装 入 程序 设置 在 基本 内 存 (640KB) 中 的 多 处 理 器 配置 表 ， 不 过 我 们 在 这 里 不 深入 到 这 个 函数 中 去 了 。 

前 面 已 经 建立 了 为 内 存 页 面 管理 所 需 的 数据 结构 ， 现 在 是 进一步 完善 页 面 映射 机 制 ， 并 有 旦 建立 起 
内 存 页 面 管理 机 制 的 时 候 了 (779 行 ) 。 函 数 paging_init( ) 的 代码 在 mm/init.c 中 : 


[start_kernel( ) > setup_arch( ) > paging. init( )] 


437 
438 
439 
440 
441 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
457 
458 


/* 

* paging init( ) sets up the page tables - note that the first 8MB are 
* already mapped by head. S. 

* 

* This routines also unmaps the page at virtual kernel address 0, so 
* that we can trap those pesky NULL-reference errors in the kernel. 

水/ 

void | init paging_init (void) 

{ 

pagetable init( ) ; 


we Mt 


. asm  ( “movl %%ecx, %%cr3\n” ::"c"(  pa(swapper pg dir))); 
#if CONFIG X86 PAE 

/* 

* We will bail out later - printk doesnt work right now so 

* the user would just see a hanging kernel. 

*/ 

if (cpu has pae) 

set in cr4(X86 CR4 PAE); 

H#endif 
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459 __flush tlb all( )， 

460 

461 #ifdef CONFIG HIGHMEM 

462 kmap_init( ); 

463 #endif 

464 { 

465 unsigned long zones size[MAX NR ZONES] = {0, 0, 0}; 
466 unsigned int max_dma, high, low; 

467 

468 max dma = virt to phys((char *)MAX DMA ADDRESS) >> PAGE SHIFT; 
469 low - max low pfn; 

470 high = highend pfn; 

471 

472 if (low < max dma) 

473 zones size[ZONE DMA] = low; 

474 else ( 

415 zones size[ZONE DMA] = max dma; 

476 zones size[ZONE NORMAL] - low - max dma; 
A477 #ifdef CONFIG HIGHMEM 

478 zones size[ZONE HIGHMEM] = high - low; 
479 #endif 

480 } 

481 free_area_init (zones_size) ; 

482 } 

483 return; 

484 } 


首先 通过 pagetable_init( ) 扩 充 由 startup 32( )ZEA— BTA GUE oa re 4] BAR A 
arch/i386/kernel/head.S 中 的 389 {7 #1 98—102 行 )。 当 初 因 为 不 知道 内 存 到 底 有 多 大 ， 所 以 只 为 开始 的 
SMB 建立 了 映射 。 现 在 纸 然 已 经 有 了 关于 内 存 的 详细 信息 ， 就 可 以 根据 这 些 信息 加 以 扩充 和 修改 ， 建 
立 完整 的 从 系统 空间 到 整个 物理 存储 空间 的 线性 映射 了 。 函 数 pagetable_init( ) 的 代码 也 在 同一 文件 中 : 


[start kernel( ) > setup_arch( ) > paging_init( ) > pagetable, init( )] 


314 static void __init pagetable init (void) 


315 { 

316 unsigned long vaddr, end: 

317 pgd_t *pgd, *pgd base; 

318 int i, j, k; 

319 pmd_t *pmd; 

320 pte t *pte; 

321 

322 /* 

323 * This can be zero as well - no problem, in that case we exit 
324 * the loops anyway due to the PTRS PER * conditions. 
325 */ 

326 end = (unsigned long)  va(max low pfn*PAGE SIZE); 
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327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
352 
353 
354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
310 
371 
372 
373 
374 
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ped base = swapper_pg dir; 
#if CONFIG X86 PAE 
for (i = 0; i < PTRS PER PGD; i++) { 


} 
#endif 


ped 


= pgd base + i; 


__pgd_clear (pgd) ; 


i = pgd offset (PAGE_OFFSET) ; 
pgd = pgd base + i; 


for (; i € PTRS PER PGD; pgdt+, i++) { 
vaddr - i*PGDIR SIZE; 
if (end && (vaddr >= end)) 


break; 


#if CONFIG X86 PAE 
pmd = (pmd t *) alloc bootmem low pages(PAGE SIZE); 
set pgd(pgd, . pgd(__pa(pmd) + 0x10); 


Helse 


Hendif 


pmd 


= (pmd t *)pgd; 


if (pmd != pmd offset (pgd, 0)) 


for 


BUG( ) ; 
(j = 0; j < PTRS PER PMD; pmd++, j++) { 
vaddr = i*PGDIR SIZE + j*PMD SIZE; 
if (end && (vaddr >= end)) 
break; 
if (cpu has pse) { 
unsigned long pe; 


set in cr4(X86 CR4 PSE) ; 
boot cpu data.wp works ok = 1; 
| pe = KERNPG TABLE + PAGE PSE + | pa(vaddr); 
/* Make it “global” too if supported */ 
if (cpu has pge) { 
set in cr4(X86 CR4 PGE) ; 
|. pe += PAGE GLOBAL; 
} 
set pmd(pmd, __pmd(__pe)); 
continue; 


} 


pte = (pte t *) alloc bootmem low pages(PAGE SIZE); 
set pmd(pmd, | pmd( KERNPG TABLE + __pa(pte))); 


if (pte != pte offset(pmd, 0)) 
BUG( ) ; 
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375 for (k = 0; k < PTRS PER PTE; ptet+, k++) ( 

376 vaddr = i*PGDIR SIZE + j*PMD SIZE + k*PAGE SIZE; 
377 if (end && (vaddr >= end)) 

378 break; 

379 *pte = mk pte phys(  pa(vaddr), PAGE KERNEL); 
380 } 

381 } 

382 } 

383 

384 /* 

385 * Fixed mappings, only the page table structure has to be 
386 * created - mappings will be set by set fixmap( ): 

387 */ 

388 vaddr = fix to virt( end of fixed addresses - 1) & PMD MASK; 
389 fixrange init(vaddr, 0, pgd base); 

390 

391 #if CONFIG HIGHMEM 

392 /* 

393 * Permanent kmaps: 

394 */ 

395 vaddr = PKMAP BASE; 

396 fixrange init(vaddr, vaddr + PAGE SIZE*LAST PKMAP, pgd base); 
397 

398 ped = swapper pg dir + . pgd offset(vaddr); 

399 pmd = pmd offset(pgd, vaddr); 

400 pte = pie offset(pmd, vaddr); 

401 pkmap page table = pte; 

402 &Rendi f 

403 

404 Hif CONFIG X86 PAE 

405 /* 

406 * Add low memory identity-mappings - SMP needs it when 
407 * starting up on an AP from real-mode. In the non-PAE 

408 * case we already have these mappings through head. S. 

409 * All user-space mappings are explicitly cleared after 
410 * SMP startup. 

411 */ 

412 pgd base[0] = pgd base[USER PTRS PER PGD]; 

413 Rendif 

44  ] 


我 们 把 这 段 代 码 究 给 读者 作为 对 第 2 章 中 有 关内 容 的 复习 。 注 意 ， 这 里 对 页 面 映射 目录 
swapper_pg_dir 中 目录 项 的 设置 是 从 下 标 __pgd_offset(PAGE_OFFSET) 开 始 , 即 从 虚拟 地 址 0xC0000000 
中 的 最 高 10 位 0x300 开始 。 页 面 映 射 目 录 的 大 小 为 一 个 页 面 ， 实 际 上 就 是 个 大 小 为 1024 的 指针 数组 ， 
这 里 从 下 标 0x300， 即 768 并 始 ， 这 是 为 系统 空间 准备 的 。 一 旦 内 核 线程 进入 正常 运行 以 后 ， 就 不 会 使 
用 0xC0000000 以 下 的 虚拟 地 址 了 ， 所 以 这 个 映射 目录 中 前 3/4 的 目录 项 最 终 都 要 设置 成 0， 不 过 现在 
还 不 到 时 候 。 
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设置 好 丰 面 映射 日 录 以 后 ，448 行 的 汇编 指令 mov 将 日 水 的 起 始 地 址 swapper_pg_dir 送 入 控制 寄 
存 嚣 %cr3。 读 者 也 许 还 记得 ,前 面 在 startup_32( ) 中 已 经 把 这 个 地 址 设置 进 Wcr3 中 了 (99 行 ), 为 什么 这 
虫 太 要 再 设置 一 次 呢 ? 这 是 因为 每 当 设置 %cr3 时 CPU 就 会 将 页 面 映射 日 录 所 在 的 负面 装 入 CPU 内 部 
高 速 缓存 中 的 TLB 部 分 。 坝 在 内 存 中 (实际 上 是 高 速 组 存 中 ， 见 下 ) 的 鼎 射 目录 变 了 ， 就 要 再 让 CPU W 
入 一 次 。 出 于 页 面 映射 机 制 本 来 就 是 开启 着 的 ， 所 以 从 这 条 指令 以 后 就 扩 人 了 系统 空间 中 有 了 映射 区 间 
的 大 小 ， 使 映射 的 范围 覆 善 到 整个 物理 内 存 (HIGHMEM 除外 )。 不 过 ， 这 里 所 谓 "Wer" ADESSO 
义 上 的 ， 实 际 上 此 时 swapper pg dir 中 已 经 改变 的 目录 项 很 可 能 还 在 高 速 缓存 中 ， 所 以 还 要 通过 
_flush_tlb_all( ) 将 高 速 缓 存 中 的 内 容 冲 删 到 内 存 中 ， 这 样 才 能 保证 内 存 中 喘 射 日 录 内 容 的 一 致 性 。 

如 前 所 述 ， 要 是 系统 中 配备 了 高 于 896MB 以 上 的 内 存 ， 而 CPU MRA 32 位 的 寻 址 能 力 ， 那 就 得 
选用 CONFIG. HIGHMEM Wm. WA, MHT CONFIG_HIGHMEM T DA Je; X, AE FEE HUS] 896MB 
以 上 物理 页 而 的 映射 呢 ? 根据 所 谓 “ 抽 屠 原 理 ” WREKE n 个 的 物件 (在 这 里 是 物理 页 面 ) 放 入 n 
个 抽 导 (在 这 里 是 属于 系统 学 闻 的 页 面 映 射 表 项 )， 则 全 少 有 一 个 抽 屠 里 要 存放 多 于 一 个 的 物件 。 但 是 ， 
一 个 页 面 表 项 在 同一 时 间 内 又 确实 只 能 映射 个 物理 页 面 ， 那 就 说 明 至 少 有 一 个 页 面 表 项 要 在 不 同 的 
时 间 里 映射 到 不 同 的 物理 页 面 。 对 于 选用 了 CONFIG_HIGHMEM 的 系统 ， 内 核 中 设置 了 一 个 全 局 的 
pte. t 指针 kmap_pte， 指 向 页 面 映射 表 中 的 一 个 表 项 ， 这 个 表 项 将 动态 地 上 映射 到 不 同 的 物理 页 和。 每 当 
要 访问 一 个 属 十 “高 内 存 ” 的 物 蛙 负面 时 ， 就 要 先 改 变 这 个 琢 项 。 消 数 kmap_init( ORDEI SE ERU X 
置 好 指针 kmap_pte。 

在 第 2 瘟 中 ， 读 者 曾 看 刘 在 代表 着 存储 节点 的 pe_data_t 数据 结构 中 的 个 数组 node_zones[ ]， 其 
大 小 为 3。 通 过 这 个 数组 ,内 核 将 每 个 节点 中 的 物理 页 面 划分 成 地 个 “管理 区 ”(zone), BY ZONE_DMA、 
ZONE NORMAL 以 及 ZONE_HIGHMEM, 其 中 ZONE_HIGHMEM 只 有 在 选用 了 CONFIG_HIGHMEM 
选项 时 才 有 效 。 为 什么 要 这 样 划分 呢 ? 将 ZONE. HIGHMEM 区 分 出 来 是 不 音 而 喻 的 , 内 为 访问 这 些 “ 丙 
内 存 ” 页 面 时 要 遵循 特殊 的 步 又 。 进 一 步 将 “ 低 内 存 ” 页 面 也 分 成 两 部 分 ， 则 是 因为 DMA HEN H 
‘AUR. Æ PC 机 中 ， 能 够 对 之 进行 DMA 抱 作 的 页 面 必须 低 本 0x1000000， 即 16MB, fH 
应 的 系统 空间 虚拟 地 址 为 MAX_DMA_ADDRESS， 这 个 常数 在 include/asm-i386/dma.h 小 定义 为 : 











75 /* The maximum address that we can perform a DMA transfer to on this platform*/ 
16 define MAX DMA ADDRESS (PAGE_OFFSET+0x 1000000) 


所 以 ， 把 16MB 以 下 的 页 面 划 入 ZONE, DMA FEX, fi A 16MB EL I: E48 max_low_pfn 则 划 入 
ZONE, NORMAL 管理 区 。 代 码 中 的 468~479 行 准备 下 一 个 整数 数组 zones_sizel |, 数 弓 中 记录 了 对 物 
理 内 存 的 划分 ， 然 后 将 其 传递 给 函数 free_area_init( )， 由 这 个 函数 根据 数组 zones_size[ ] 提 供 的 指示 在 
三 个 管理 区 中 创建 起 室 闲 页 面 块 队列 。 函 数 free_area_init( JRA KM ASE mm/page_alloc.c 中 ， 我 们 
也 把 它 留 给 读者 。 

至 此 ，paging_init( ) 的 操作 已 经 完成 ， 我 们 回 到 setup. arch ) 的 代码 中 : 


[start_kernel( ) > Setup_archt )] 


780 #ifdef CONFIG X86 IO APIC 


781 /* 

782 * gel boot-time SMP configuration: 
783 */ 

784 if (smp found config) 
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785 
786 
787 
788 
789 
790 
79] 
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get smp config( ); 
BSendif 
#ifdef CONFIG X86 LOCAL APIC 
init apic mappings( ); 
&endif 


&ifdef CONFIG BLK DEV INITRD 


Hendif 


/* 
* Request address space for all standard RAM and ROM resources 
* and also for regions reported as reserved by the e820. 
*/ 
probe_roms( ); 
for (i = 0; i < e820. nr map; i++) { 
struct resource *res; 
if (e820.map[il.addr + e820.map[il.size > 0x100000000ULL) 
continue; 
res - alloc bootmem low(sizeof(struct resource)); 
switch (e820. map[i]. type) { 
case E820 RAM: res->name = "System RAM”; break; 
case E820 ACPI: res->name = “ACPI Tables”: break: 
case E820 NVS: res->name ~ “ACPI Non-volatile Storage”: break: 
default: res->name ~ "reserved"; 
} 
res-»start = e820. mapli]. addr; 
res-»end = res-^start + e820. maplil. size - 1; 
res->flags = IORESOURCE MEM | IORESOURCE BUSY; 
request resource(&iomem resource, res); 
if (e820. mapli]. type == E820 RAM) { 
/* 
* We dont’ t know which RAM region contains kernel data, 
* so we try it repeatedly and let the resource manager 
* test it. 
*/ 
request resource(res, &code resource); 
request resource(res, &data resource); 
) 
j 


request resource(&iomem resource, &vram resource); 


/* request 1/0 space for devices used on all 1[345]86 PCs */ 
for (i = 0; i < STANDARD TO RESOURCES: i++) 


request resource(&ioport resource, standard io resourcosti); 


#ifdef CONFIG VT 
tif defined(CONFIG VGA CONSOLE) 


第 10 章 ”系统 引导 种 初 始 化 


847 conswitchp = &vga_con; 

848 #elif defined (CONFIG DUMMY CONSOLE) 
849 conswitchp > &dummy con; 

850 #endif 

851 #ondif 

852  ] 


物理 内 存 页 而 当然 是 重 此 的 资源 ， 对 这 些 资源 的 管理 机 制 已 经 建立 了 。 供 是 ， 从 忆 一 个 角度 有 ， 
地 址 室 问 本身， 或 者 物理 存储 器 在 地 址 空间 中 的 位 置 ， 也 是 一 种 资源 ， 也 要 加 以 管理 。 为 此 ， 
include/linux/ioport.h 中 定义 了 一 种 resource 数据 结构 : 


11 /* 

12 * Resources arc tree like, allowing 

13 x nesting etc.. 

14 */ 

15 struct resource | 

16 const char *name; 

17 unsigned long start, end; 

18 unsigned long flags; 

19 struct resource *parent, *sibling, *child; 
20 E 


这 种 数据 结构 描述 的 是 - 片 可 以 通过 访问 内 存 操作 或 VO. 操作 加 以 访问 的 连续 空间 ， 或 者 说 操作 
对 象 齐 相应 空间 中 的 位 置 。 这 样 的 对 象 有 RAM. ROM 以 及 “: 些 用 十 外 部 设备 的 器 件 。 这 里 所 关心 的 
只 是 由 这 些 器 件 所 形成 的 迪 辑 意义 上 的 连续 存储 空间 或 VO 地 址 空间 ， 侧 并 不 关心 每 个 这 样 的 空间 在 
物理 上 包含 了 几 个 芯片 。 另 方面， 我 们 以 前 讲 过 ，i386 处 理 器 有 独立 十 内 存 访问 指令 的 VO 指令 利 
独立 十 内 存 地 址 空间 的 VO 地 址 空间 。 虽 然 有 些 处 理 露 没有 独立 的 WO 指令 和 TO 地 此 空间 ， 但 是 多 辑 
上 述 是 能 根据 用 途 区 分 此 项 资源 是 届 于 存储 性 质 的 还 羡 VO 性 质 的 。 每 个 resource 结构 通过 其 parent, 
sibling. child 等 指针 互相 连接 在 一 起 ， 形 成 ”种 树 状 结构 。 如 有 果 一 个 resource 绍 构 是 男 一 个 resource 
结构 的 子 节点 ， 则 它 所 描述 的 室 问 是 父 节 点 所 描述 空间 的 一 部 分 ， 或 者 是 对 父 节 点 的 具体 化 。 内 核 中 
有 了 两样 这 样 的 树 ， 一 棵 是 iomem_resource， 另 一 棵 是 ioport resource, SAREE AKA IR] Pk P) 8 E 
资源 。 两 棵 树 的 根本 身 也 都 是 resource 数据 结构 ， 不 过 这 项 个 数据 结构 所 描述 的 并 不 古 用 上 具体 操作 
对 象 的 地 址 资源 ，J 放 是 概念 上 的 整个 出 址 罕 间 (kemelresource.c)。 


18 struct resource ioport resource={ “PCI 10”, 0x0000, IO SPACE LTMTT, TORESOURCE_10} ; 
19 struct resource iomem resource -í “PCT mem”, 0x00000000, Ox£fffffff, IORESOURCE MEM | ; 


内 核 小 设置 了 一 个 resource 结构 数组 rom resources ]， 骨 来 记录 系统 中 每 个 ROM TANID 
(arch/i386/kernel/setup.c). Arid ROM 实际 上 是 指 所 有 的 不 挥发 内 读 存 储 嚣 , 包括 PROM. EPROM, Flash 
存储 器 等 存储 器 件 。 不 过 ， 这 个 数组 中 只 包括 PC 机 所 央 有 的 那些 ROM i, RU ERRETEN 上 或 第 
一 块 图 形 卡 上 , 而 不 包括 中 其 他 接口 卡 提供 的 不 挥发 存储 空间 。 以 前 说 过 ， 只 要 是 PC 机 就 至 少 有 个 
ROM inl, (AE BIOS 总 是 在 一 个 ROM 空间 中 ， 并 革 所 在 的 位 置 总 是 疝 定 的 。 所 以 ， 数 组 中 的 第 
一 个 元 素 吊 定 地 初始 化 成 “System ROM”, REEMA 0xF0000 到 0xFFFFF。 此 外 ， 图 形 接 口中 也 人 有 有 一 
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个 ROM 空间 ， 其 位 置 应 该 是 从 0xC0000 到 0xC7fftf， 不 过 这 是 要 加 以 验证 的 。 


325 
326 
327 
328 
329 
330 


/* System ROM resources */ 

#define MAXROMS 6 

static struct resource rom resources [MAXROMS] = { 
( "System ROM”, OxF0000, OxFFFFF, TORESOURCE BUSY }, 
( "Video ROM", 0xc0000, Oxc7fff, IORESOURCE BUSY } 


除 BIOS 所 在 的 ROM 空间 以 外 ， 其 他 的 ROM 空间 都 要 通过 扫 朱 来 寻找 或 验证 。 不 过 ， 对 ROM 
空间 在 内 存 中 的 位 置 是 有 限制 的 ， 它 们 只 能 出 现在 几 个 特定 的 区 间 ， 所 以 只 需要 扫描 这 兄 个 特定 的 区 
inj RI LAT, AZ probe roms( ) 的 代码 在 arch/i386/kernel/setup.c FP: 


[start kernel( ) > setup_arch( ) > probe_roms( )] 


332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
302 
3933 
354 
305 
356 
307 
358 
359 
360 
361 
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#define romsignature (x) (*(unsigned short *) (x) == Oxaa55) 


static void __init probe roms (void) 
int roms - 1; 
unsigned long base; 
unsigned char *romstart; 


request resource(&iomem resource, rom resourcestÜ); 


/* Video ROM is standard at C000:0000 - C7FF:0000, check signature */ 
for (base = OxC0000; base < OxEO000; base += 2048) | 

romstart - bus to virt(base); 

if (lromsignature (romstart)) 

continue; 

request resource(&iomem resource, rom resources + roms) ; 

romst+; 

break; 


/* Extension roms at C800:0000 ~ DFFF:0000 */ 
for (base = 0xC8000; base € OxE0000; base += 2048) { 
unsigned long length; 


romstart - bus to virt(base); 

if (Iromsignature (romstart) ) 
continue; 

length - romstart[2] * 512; 

if (length) { 


unsigned int i; 
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362 unsigned char chksum; 

363 

364 chksum = 0; 

365 for (i = 0; i < length; i++) 

366 chksum += romstart[il; 

367 

368 /* Good checksum? */ 

369 if (!chksum) { 

370 rom resources[roms]. start = base; 

371 rom resources[roms]. end = base + length - 1; 
312 rom resources[roms]. name = "Extension ROM”; 
373 rom resources[roms]. flags = IORESOURCE BUSY; 
314 

315 request resource(&iomem resource, rom resources + roms); 
376 roms+t+; 

377 if (roms >= MAXROMS) 

378 return; 

379 } 

380 } 

381 } 

382 

383 /* Final check for motherboard extension rom at E000:0000 */ 
384 base = OxE0000; 

385 romstart = bus to virt(base); 

386 

387 if (romsignature(romstart)) { 

388 rom_resourcesLroms|. start ^ base; 

389 rom resources[roms]. end = base + 65535; 

390 rom resources[roms].name - "Extension ROM"; 

391 rom resources[roms]. flags = IORESOURCE BUSY; 

392 

393 request resource (kiomem_resource, rom resources + roms); 
394 } 

395 } 


第 -项 ROM tiii, Bl BIOS 所 在 的 ROM 空间 是 固有 的 ,所 以 不 经 打 打 了 怠 旧 接 通 过 request_resourcect ) 
把 它 链 入 iomem_resource 树 中 。 有 关 的 代码 在 kernel/resource.c 中 : 


[start_kernel( ) > setup_arch( ) > probe_roms( ) > request_resource( )] 


114 int request_resource (struct resource *root, struct resource *now) 
115 { 

116 struct resource *conflict; 

117 

118 write lock(&resource lock); 

119 conflict = __ request resource (root, new); 

120 write unlock(&resource lock); 
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121 return conflict ? -EBUSY : 0; 
122 } 


操作 的 主体 是 __regqucst_resource( )， 其 代码 也 在 kernel/resource.c P: 


[start kernel( ) > setup_arch( ) > probe roms( ) > request resource( ) > request resource( )] 


66 /* Return the conflict entry if you can't request it */ 

67 static struct resource * request resource (struct resource *root, 
struct resource *new) 

68 { 

69 unsigned long start = new-»start; 

70 unsigned long end = new-»end; 

Tl struct resource *tmp, **p; 

T2 

13 if (end € start) 

14 return root; 

15 if (start < root->start) 

76 return root; 

77 if (end > root->end) 

78 return root; 

79 p = &root->child; 

80 Por (ia): 3 

81 tmp = *p; 

82 if (tmp || tmp->start > end) | 

83 new-»sibling = tmp; 

84 *p = new; 

85 new—>parent = root; 

86 return NULL; 

87 } 

88 p = &tmp-»sibling; 

89 if (tmp-^end € start) 

90 continue; 

9] return tmp; 

92 j 

93 } 


由 于 ROM 空间 的 位 置 限制 在 儿 个 特定 的 区 间 ， 厅 需 考虑 与 其 他 资源 冲突 的 可 能 性 ， 所 以 在 
probe roms( ) 中 并 不 检查 request_resource( ) 的 返 问 值 。 除 BIOS 所 在 的 ROM 空间 之 外 ， 其 他 的 部 要 通 
过 扫描 和 验证。 每 个 ROM 空间 的 开头 两 个 字 节 一 定 是 0xaa55， 称 为 “ROM 签名 ”， 用 宏 操作 
romsignature( ) 加 以 检验 。 有 的 ROM IRE GAR : 定 在 某 个 特定 的 地 址 上 ， 有 的 则 可 以 在 一 个 特 
定 的 区 问 中， 但 一 定 与 2KB 边界 对 齐 。 这 种 多 样 性 是 在 长 期 的 发 展 过 程 中 形成 的 。 

站 到 setup arch( ) 的 代 伺 中， 将 母 板 上 的 ROM 空间 纳入 iomem_resource 树 中 以 后 ， 述 要 根据 前 面 
收集 在 e820 数据 结构 中 的 信息 ， 将 由 BIOS 扫描 探测 到 的 各 个 内 存 区 间 也 纳入 iomem_resource 树 的 统 
-管理 (814 一 838 行 )。 对 于 RAM 空间 , 这 时 还 进一步 分 解 山 内 核 的 代码 段 和 数据 段 两 片 特 猴 用 途 的 空 
间 。 此 外 , 图 形 接口 上 也 有 一片 RAM 空间 , 其 地 址 为 0xA0000—0xBFFFF (hil arch/i386/kernel/setup.c). 
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321 static struct resource code resource = { "Kerne! code”, 0x100000, 0 }; 
322 static struct resource data resource = { “Kernel data’, 0, 0 }; 
323 static struct resource vram resource = { "Video RAM area’, 


0xa0000, Oxbffff, IORESOURCE BUSY }; 


对 于 内 核 代 人 码 段 和 数据 段 中 的 地 址 信息 ， 是 由 setup arch( ) 在 一 开始 时 根据 山 gcc 提供 的 _text、 
_etext、_edata 等 信息 设置 的 ( 见 634 一 637 íT). 

系统 固有 的 vo 类 资源 则 定义 于 数组 standard_io_resources[ ] 巾 (arcMi386/kernel/setup.c)，842 人 一 843 
行 的 for 循环 将 这 些 resource 结构 链 入 ioport_resource 树 中 : 


308 struct resource standard io resources[ | = | 

309 ( “dmal”, 0x00, Oxif, IORESOURCE BUSY |, 

310 | “nicl”, 0x20, Ox3f, IORESOURCE BUSY }, 

311 { “timer”, 0x40, Ox5f, IORESOURCE_BUSY }, 

312 { “keyboard”, 0x60, Ox6f, IORESOURCE BUSY }, 
313 { “dma page reg”, 0x80, Ox8f, LORESOURCE BUSY |, 
314 { "pic2", Oxa0, Oxbf, IORESOURCE BUSY j, 

315 ( "dma2", OxcO, Oxdf, IORESOURCE BUSY }, 

316 ( “fpu”, Oxf0, Oxff, IORESOURCE BUSY } 

317 }; 


以 结构 中 的 第 一 项 为 例 ，VO 地 址 0x00—0x1f J£ 32 个 寄存 器 是 用 寺 第 一 个 DMA 控制 器 的 。 这 里 
固定 设置 好 的 都 是 系统 固有 的 资源 ， 使 用 了 0x00~0xff 共 256 个 寄存 器 。 从 0x100 开始 就 是 用 村” 般 
外 部 设备 的 VO 地 址 ， 需 要 在 相应 外 部 设备 的 初始 化 过 程 中 向 系统 登记 。 

最 后 ,一 般 PC 机 部 配备 VGA 图 形 卡 ,所 以 使 作为 全 局 量 的 指针 conswitchp 指向 数据 结构 vga_con。 
这 是 VGA 卡 设备 驱动 层 的 函数 跳 转 结构 ， 提 供 了 各 种 民 幕 操作 的 员 数 指针 。 

在 系统 初始 化 的 第 二 阶段 ，setup_arch( ) 也 许 是 最 重要 的 函数 ， 正 如 其 函数 所 上 暗示 的 那样 ， 它 及 设 
SHE EL Ae) “architecture”, BU MAING. SERT setup_arch( )， 内 核 就 有 了 一 个 框架 ， 内 核 中 的 各 
个 部 件 或 模块 就 有 了 运行 的 环境 。 

但 是 这 个 阶段 的 初始 化 远 林 完成 ， 路 还 长 得 很 ， 我 们 同 到 start_kernel( ) 中 再 往 下 看 。 


[start kernel( )] 


532 printk("Kernel command line: %s\n", saved command line); 

533 parse options(command line); 

534 trap init( ) ; 

535 init IRQ( ) ; 

536 sched init( ); 

537 time init( ); 

538 softirq init( ); 

539 

540 /* 

541 * HACK ALERT! This is early. We're enabling the console before 
542 * we've done PCI setups etc, and console init( ) must be aware of 
543 * this. But we do want output carly, in case something goes wrong. 
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*/ 


console _init( ); 


这 里 调用 的 init IRQ( ). softirq_init( ) 以 及 time init( ) 都 已 在 第 3 常 中 看 过 了 ， 读 者 不 妨 回 过 去 温 
下 。 我 们 要 看 的 是 其 余 几 个 函数 。 

首先 是 对 引导 命令 行 中 各 个 选择 项 的 分 析 和 处 理 。 前 面 在 setup_arch( ) 中 (639 行 ) 已 经 对 命令 行 作 
些 分 析 处 理 , 但 那 只 是 专门 针对 与 内 存 有 关 的 选择 项 , 现在 则 通过 parse_options( ) 对 命令 行进 行 全 
分 析 处 理 。 函 数 parse_options( ) 所 作 的 只 是 一 些 字符 串 的 处 理 , 目的 在 于 从 命令 行 中 分 解 出 各 个 选 
， 然 后 对 每 个 选择 项 调用 checksetup( ) 加 以 处 理 。 我 们 跳 过 parse_options( ) 而 直接 看 checksetup( ), 
码 在 init/main.c 中 : 


[start_kernel( ) > parse_options( ) > checksetup( )] 


318 
319 
320 
321 
322 
323 
324 
329 
326 


择 项 
66 


67 
68 


static int init checksetup(char *line) 
{ 


struct kernel param *p; 


p = & setup start; 
do { 
int n = strlen(p—str): 
if (!strnemp (line, p->str,n)) { 
if (p->setup_fune (1 inetn)) 
return 1; 


} 

ptt; 
} while (p < & _setup end); 
return 0; l 


内 核 中 有 个 数组 ， 数 组 中 的 每 个 元 素 部 是 一 个 kernel. param 数据 结构 ， 定 义 于 include/linux/init.h: 


/* 
* Used for kernel command line parameter setup 
*/ 
struct kernel param { 
const char *str; 
int (setup func) (char *); 
y 


根据 由 parse options( fë FRAJERE, checksetup( ) 在 这 个 数组 中 逐个 搜索 比 对 ， 如 果 与 某 一 选 
的 字符 串 相 符 ， 就 执行 由 相应 kernel. param 数据 结构 通过 孜 数 指针 提供 的 操作 。 那 么 ， 数 组 沾 的 


结 侈 是 在 哪儿 定义 的 呢 ? 首 先 ， 在 include/linux/init.h 中 定义 了 一 个 宏 操 作 __setup( ): 
#define __setup(str, fn) X 
static char | setup str_##fn[ ] | initdata = str; \ 


static struct kernel param __setup_##fn V 
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| attribute  ((unused)) __initsetup = { setup_str_##fn, fn } 
69 
70 Hendif /* _ ASSEMBLY */ 


这 里 的 __initdata 和 __initsetup 分 别 定 义 为 : 


78 Hdefine __initdata | attribute | ((__ section__ (^. data. init^))) 


80 Bdefine | initsetup V. attribute — ((unused, section. (*. setup. init”))) 


表示 在 连接 时 要 分 别 将 有 关 的 数据 结构 放 在 “.data.init” 和 “,setup.init” 段 中 。 
这 样 ， 以 选择 项 “no387” 为 例 ， 在 include/asm-i386/bugs.h 中 有 这 人 么 一 行 ， 


51 __ setup ("no387”, no 387); 
经 过 goo 的 预 处 理 以 后 ， 这 - 行 就 变 成 了 这 梓 ， 
static char __setup_str_no_387[ ] _ initdata =“no387 ; \ 
static struct kerncl param __setup no 387 __attribute__((unused)) __initsetup = 


{ setup str no 387, no 387j 


Td, MPO PA “n0387” XAR, checksetup( RA EFIT R EE MEAT EU LUST ER a 
no_387()， 其 代码 也 在 include/asm-i386/bugs.h F: 


44 static int | init no_387 (char *s) 


45 i 

46 boot cpu data.hard math = 0; 
47 write crO(OxE | read_cr0( )); 
48 return l; 

49  ] 


IK ANTE ETA AEB AS, RAJE boot cpu. data.hard math. 设 成 0， 并 把 控制 寄存 器 gcr0 
中 的 兄 个 标志 位 设 成 1， 表示 系统 中 没有 80387 协 处 理 器 ， 或 者 即使 有 也 不 用 。 
再 如 选择 项 “root=”， 表 示 要 将 文件 系统 的 总 根 建立 在 指定 的 设备 上， 其 定义 见 init/main.c: 


316 __setup(“root—”, root dev setup); 


相应 的 函数 root. dev. setup( )Jll] JJ (ini/main.c): 


299 static int init root dev setup (char *line) 
300 { 

301 int i; 

302 char ch; 

303 

304 ROOT DEV = name_to_kdev_t (line) ; 
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305 memset (root device name, 0, sizeof root device name); 
306 if (strnemp (linc, "/dev/^, 5) == 0) line += 5; 
307 for (i = 0; i < sizeof root device name - 1: ++i) 
308 { 
309 ch = lineli]; 
310 if ( isspace (ch) || (ch — ',') i| (ch -- 'N0') ) break: 
311 root device nameli] = ch; 
312 | 
313 return 1; 
314 ) ] 
显然 ， 由 checksetup( )f FORMA BUA RT OU IH E "roots", TR FRU SEA EE 


root dev setup ) 押 关心 的 。 代 码 本 身 很 简单 ， 我 们 就 不 加 解释 了 。 

这 样 的 选择 项 有 多 少 昵 ? AIL | 个 之 多 。 - 般 ， 如 果 内 核 中 某 个 模块 或 设备 驱动 程序 的 设计 人 员 
觉得 有 需要 提供 一 个 引导 选择 项 xyz， 就 可 以 提供 一 个 函数 do_xyz( )， 并 在 程序 中 加 |， 行 
" .Setup"xyz",do xyzy;", 这 就 行 了 。 


让 个 重要 的 晒 数 是 trap_init( )， 这 个 函数 的 作用 是 设置 蜂 阱 门 和 中 了 断 门 ， 读者 在 第 3 章 中 已 经 看 
过 它 的 代码 。 但 是 当时 我 们 的 注意 力 集中 在 中 断 机 制 ， 所 以 跳 过 了 人 在 trap_init( ) 中 调用 的 … 个 函数 
cpu, init( ). 

SEA, cpu init()55 CPU 的 初始 化 有 关 。 如 前 所 述 ，CPU 本 身 的 初始 化 主要 是 在 startup_32( ) 小 完 
成 的 ， 但 是 实际 上 有 -部 分 层次 比较 高 的 初始 化 放 在 第 阶段 才 进 行 ， 这 就 是 这 里 的 cpu init( )。 与 
startup. 32 ) 中 的 初始 化 相 比 ， 这 里 让 要 是 为 进程 调度 作 准 备 ， 其 代 亿 在 arch/i386/kemel/setup.c tH: 


[start kernel( ) > trap_init( ) > cpu init( )] 


2199 /水 

2200 * cpu init( ) initializes state that is per CPU. Some data is already 
2201 * initialized (naturally) in the bootstrap process, such as the GDT 
2202 * and IDT. We reload them nevertheless, this function acts as a 
2208 * “CPU state barrier’, nothing should get across. 

2204 来 / 

2205 void init cpu init (void) 

2206 | 

2207 int nr - smp processor id( ); 

2208 struct tss struct * t - &init iss[nr]; 

2209 

2210 if (test and set bit(nr, &cpu initialized)) | 

2211 printk("CPU#%d already initialized!Wn^, nr); 

2212 for (sh. sti a 

2213 j 

2214 printk( Tnitializing CPU#%d\n”, nr); 

2215 

2216 if (cpu has, vme |; cpu has. tse || cpu has de) 

2217 clear in cr4(X86 CR4 VME'X86 CRA PVT!X86 CR4 TSD|X86_CR4 DE); 


2218 #ifndef CONFIG X86 TSC 
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if (tsc disable && cpu has tse) | 
printk("Disabling TSC... \n”); 
fx*xkk FIX-HPA: DOES THIS REALLY BELONG HERE? *¥**/ 
clear bit(X86 FEATURE TSC, boot cpu data. x86 capability); 
set in cr4(X86 CR4 TSD) ; 


) 
&endif 

asm | volatile (Igdt %0”: “=m” (gdt descr)); 
| asm | volatile (lidt %0”: “=m” (idt descr)); 
/* 

* Delete NT 

*/ 

| asm  ('pushfl ; andl $0xffffbfff, (Wesp) ; popf17); 
/* 

* set up and load the per-CPU TSS and LDT 

*/ 


atomic inc(&init mm.mm count); 
current Dactive mm = &init mm; 
if (current-^mm) 
BUG( ) ; 
enter lazy tlb(&init mm, current, nr); 


t->esp0 = current—>thread. esp0; 

set tss desc (nr, t); 

gdt table[  TSS(nr)].b &- Oxfffffdff; 
load TR(nr): 

load LDT(&init mm); 


/* 
* Clear all 6 debug registers: 


x/ 
define CD(register) . asm  (^movl %0, %%db” #register ::”r” (0) ); 
CD(O ; CDQ): CD(2); CD(3); /* no db4 and db5 */; CD(6); CD(T); 
under CD 


/* 

* Force FPU initialization: 
*/ 

current-^flags &- "PF USEDTPU; 
current-^uscd math = 0; 

stts( ); 
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这 个 函数 不 仅 由 主 CPU 在 trap. init( ) 中 调用 ， 也 由 次 CPU 在 进入 start, secondary( ) 以 后 调用 。 代 
码 中 的 cpu_initialized 是 个 全 局 的 位 图 ， 系 统 中 的 每 个 CPU 在 这 个 位 图 中 都 有 个 对 应 的 标志 位 ， 一 个 
CPU 完成 了 本 各 的 初始 化 就 将 柑 应 的 标志 位 设置 成 1, 让 其 他 CPU, 其 实 主要 是 主 CPU, 知道 这 个 CPU 
的 初始 化 已 经 完成 了 。 对 于 每 个 县 体 的 CPU 而 言 ， 将 cpu_initialized 中 的 对 应 位 设置 成 1 只 能 发 生 一 
Ko BAR CPU 再 次 试 网 设置 其 对 应 标志 位 就 肯定 是 出 了 问题 ， 所 以 就 让 出 了 问题 的 CPU 陷 
入 -一 个 无 限 循环 。 这 实际 上 相当 于 让 CPU 跳 过 下 面 的 所 有 操作 进入 空转 ， 关 为 CPU 在 这 个 循环 中 候 
能 啊 应 中 世 请 求 ， 并 且 在 中 断 服 务 以 后 若 发 现 需要 调度 就 会 如 常 进 行 调度 。 不 过 ，CPU 在 所 请 “空转 ” 
中 会 进入 停机 状态 ， 实 际 上古 不 转 ， 而 在 这 个 for 循环 中 则 真正 在 打转 。 

DELLE TSC 等 的 设置 , 下面 对 段 寄 存 器 的 设置 、 对 (当前 进程 的 )task_struct 结构 中 的 指针 active mm 
的 设置 ， 以 及 为 什么 task. struct 结构 中 的 指针 mm 应 该 是 0， 还 有 对 “任务 寄存 器 ”的 设置 ， 结 合 第 3 
草 和 第 4 章 的 内 容 读 者 应 该 能 自己 读 懂 。 人 代码 中 的 2233 行将 CPU 中 “标志 位 寄存 器 ”的 NT 位 (表示 
EEA ATK, “Nested Task”) 清 成 0。 由 于 没有 直接 对 这 个 寄存 器 进行 位 操作 的 指令 ， 这 里 先 把 它 水 
入 堆栈 ， 在 堆栈 中 操作 完了 再 送 回 寄存 天 。2248 行 通过 load LDT( ) 装 入 局 部 段 描 述 表 指针 LDTR， 个 
iX Linux ARE VM86 模式 上 才 使 用 局 部 段 ， 所 以 我 们 在 这 里 并 不 关心 。 还 有 ，2256 行 是 对 CPU 中 
一 些 程序 调试 寄存 器 的 初始 化 ，2263~2265 行 是 对 浮 点 处 埋 器 的 初始 化 ， 这 里 就 都 从 略 了 。 

再 看 对 进程 调度 机 制 的 初始 化 。 


[start_kernel( ) > sched_init( )] 


1244 void | init sched_init (void) 


1245 { 

1246 /* 

1247 * We have to do a little magic to get the first 
1248 * process right in SMP mode. 

1249 */ 

1250 int cpu = smp processor. id( ); 

123] int nr; 

1252 

1253 init_task. processor = cpu; 

1254 

1255 for(nr = 0; nr < PIDHASH SZ; nrt+) 

1256 pidhash[nr] = NULL; 

1257 . 

1258 init timervecs( ); 

1259 

1260 init bh(TIMER BH, timer bh); 

1261 init bh(TQUEUE BH, tqueue bh); 

1262 init bh(IMMEDIATE BH, immediate bh); 
1263 

1264 /* 

1265 * The boot idle thread does lazy MMU switching as well: 
1266 */ 

1267 atomic inc(&init mm.mm count); 

1268 enter lazy tlb(&init mm, current, cpu); 
1269 } 
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这 里 所 调用 的 一 些 函 数 对 读者 已 经 不 陌 止 了 。 虽 然 还 没有 看 过 init_timervecs( HARIS, (BUE 
思 义 这 是 对 定时 器 中 断 向 量 的 初始 化 。 所 以 ， 我 们 把 这 个 函数 留 给 读 省 。 

然后 是 对 系统 主 控 终 端的 初始 化 ， 读 者 已 经 在 “设备 驱动 ”…- 章 中 看 到 过 了 了， 

我 们 还 得 往 下 看 。 


[start, kernel( )] 


546 #ifdef CONFIG MODULES 


547 init modules( ); 

548 #endif 

549 if (prof shift) { 

550 unsigned int size; 

551 /* only text is profiled */ 

552 prof len = (unsigned long) & etext - (unsigned long) & stext; 
553 prof len >>= prof shift; 

554 

555 size = prof len * sizeof(unsigned int) + PAGE SIZE-1; 
556 prof buffer = (unsigned int *) alloc bootmem(sizo); 
557 } 

558 

559 kmem cache init( ); 

560 sti( ); 

561 calibrate delay( ); 


562 #ifdef CONFIG BLK DEV INTTRD 


569 Hendif 

570 mem init( ); 

571 kmem cache sizes init( ); 
572 #ifdef CONFIG 3215 CONSOLE 
573 con3215 activate( ); 
574 Hendif 

515 üifdef CONFIG PROC FS 

576 proc root init( ); 

577 Hendif 

578 mempages - num physpages; 
579 

580 fork init (mempages) ; 

581 proc caches init( ); 

582 vfs caches init (mempages) ; 
583 buffer init (mempages) ; 
584 page cache init (mempages) ; 
585 kiobuf setup( ); 

586 signals init( ) ; 

587 bdev init( ); 

588 inode init (mempages) ; 

589 Hif defined (CONFIG SYSVIPC) 
590 ipe init( ); 
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591 #endif 
592 #if defined(CONFIG_QUOTA) 


593 dquot init hash( ); 

594 #endif 

595 check bugs ( ); 

596 printk( “POSTX conformance testing by UNIFIX\n”) ; 


首先 是 对 可 安装 模块 这 个 机 制 的 初始 化 ， 其 实 只 是 计算 出 内 核 符 号 表 的 大 小 ， 而 及 计算 也 很 简单 。 
函数 init_modules( ) 的 代码 在 kernel/module.c H: 


[start kernel( ) > init modules( )] 


220  /* 

230 * Called at boot time 

231 */ 

232 

233 void | init init modules (void) 

234 f 

235 kernel module.nsyms = __stop | ksymtab ~ . start | ksymtab; 
236 


237 #ifdef __alpha__ 


239 #endif 
240 } 


PE Vi rfl empty. zero. page 在 前 面 被 借用 来 传递 引导 命令 行 和 参数 块 , 现在 应 该 物 昌 原 主 了 。 顾 名 
思 义 ， 这 个 页 血 的 内容 应 该 是 个 0。 此 外 ， 基 本 内 存 中 的 页 面 ， 即 IMB 以 下 的 页 面 还 没有 释放 以 供 动 
态 分 出， 前 面 使 用 的 负面 位 图 所 人 在 的 页 面 现在 也 已 经 完成 了 使 命 ， 也 应 该 释放 以 供 动 态 分 配 。 达 有 ， 
前 面 讲 过 ， 在 页 面 屿 射 目录 中 的 低 区 ， 即 对 应 十 用 户 空间 的 区 间 有 儿 个 临时 性 的 日 录 项 ， 最 后 应 该 了 
以 清除 。 门 时 ， 偿 需 归 收集 或 计算 出 一些 统 计 信 和 以。 这 些 操作 都 是 由 mem_init( ) 完 成 的 ， 其 代码 在 
mm/init.c FF: 


[start_kernel( ) > mem, init( )] 


554 void init mem_init (void) 


555 { 

556 int codesize, reservedpages, datasize, initsize; 
557 int Lmp; 

558 

559 if (!mem map) 

560 BUG( ) ; 

561 

562 #ifdef CONFIG HIGHMEM 

563 highmem start page = mem map + highstart pfn; 
564 max mapnr = num physpages = highend pfn; 

565 Relse 
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max mapnr = num physpages = max_low_pfn; 
Hendif 
high memory = (void *) | va(max low pfn * PAGE SIZE); 


/* clear the zero-page */ 
memset (empty_zcro_page, 0, PAGE SIZE); 


/* this will put all low memory onto the freelists */ 
totalram pages += free all bootmem( ); 


reservedpages = 0; 

for (tmp = 0; tmp < max low pfn; tmp++) 
/* 
* Only count reserved RAM pages 
*/ 
if (page is ram(tmp) && PageReserved(mem map+tmp)) 

reservedpagest+ ; 
#ifdef CONFIG HIGHMEM 

for (tmp = highstart pfn; tmp < highend pfn; tmpt+) { 

struct page *page = mem_map + tmp; 


if (!page is ram(tmp)) | 
SetPageReserved (page) ; 
continue; 

j 

ClearPageReserved (page) ; 

set bit (PG highmem, &page->flags) ; 

atomic_set (&page->count, 1); 

__ free page (page) ; 

totalhigh pages--*; 

} 


Lotalram pages += totalhigh pages; 


Hendil 
codesize = (unsigned long) & etext - (unsigned long) & text; 
datasize = (unsigned long) & edata | (unsigned long) & etext; 
initsize - (unsigned long) & init end - (unsigned long) & init begin; 


printk( Memory: %luk/%luk available V 
(%dk kernel code, %dk reserved, %dk data, %dk init, %ldk highmem) Wn", 
(unsigned long) nr free pages( ) << (PAGE SHIFT-10), 
max mapnr << (PAGE SHIFT-10), 
codesize >> 10, 
reservedpages << (PAGE SHIFT-10), 
datasize >> 10, 
initsize >> 10, 
(unsigned long) (totalhigh pages << (PAGE SHIFT-10)) 
2s 
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613 #if CONFIG_X86_PAE 


614 if (!cpu has pae) 

615 panic ("cannot execute a PAE-enabled kernel on a PAF-less CPU!^); 
616 Rendif 

617 if (boot cpu data. wp works ok < 0) 

618 test wp bit( ); 

619 

620 /* 

621 * Subtle. SMP is doing it’s boot stuff late (because it has to 
622 * fork idle threads) - but it also needs low mappings for the 
623 * protected-mode entry to work. We zap these entries only after 
624 * the WP-bit has been tested. 

625 */ 

626 #ifndef CONFIG SMP 

627 zap low mappings ( ); 

628 Rendif 

629 

630 } 


这 里 的 571 行将 empty. zero. page 的 内 容 清 成 全 0。 接 着 调用 的 free_all_bootmem( ) 是 个 重要 的 操 
作 ， 它 根据 页 面 位 图 的 内 容 释 放 物 理 内 存 中 所 有 可 供 动 态 分 配 的 负面 ， 将 这 些 页 面 投入 动态 分 配 。 


[start_kernel( ) > mem_init( ) > free. all. bootmem( )] 


300 | unsigned long __init free all bootmem (void) 


301 { 
302 return(free all bootmem core(&contig page data)); 
303  ] 


[start kernel( ) > mem init( ) > free all bootmem( ) > free all bootmem. core( )] 


224 static unsigned long | init free all bootmem core (pg data t *pgdat) 
225 { 


226 struct page *page = pgdat->node mem map; 

227 bootmem data t *bdata = pgdat-~>bdata， 

228 unsigned long i, count, total = 0; 

229 unsigned long idx: 

230 

231 if ('bdata-?node bootmem map) BUG( ); 

232 

233 count = Q; 

234 idx = bdata->node low pfn - (bdata->node boot start >> PAGE SHIFT); 
235 for (i = 0; i < idx; i++, paget+) ( 

236 if (!test bit(i, bdata->node bootmem map)) | 
237 countt+; 

238 ClearPageReserved (page) : 

239 set page count (page, 1); 

240 __free_page (page) ; 


第 10 章 “系统 引导 和 初始 化 


241 } 

242 } 

243 total += count; 

244 

245 /* 

246 * Now free the allocator bitmap itself, it’s not 
247 * needed anymore: 

248 */ 

249 page = virt to page (bdata->node_bootmem_map) ; 
250 count = 0; 

251 for (i = 0; 


i € ((bdata->node_low pfn- (bdata->node_boot start >> PAGE SHIFT))/8 
+ PAGE SIZE-1) /PAGE_ SIZE; 
itt, page+t) { 


252 countt+ ; 

253 ClearPageReserved (page) ; 
254 set page count(page, 1); 
255 | free page(page); 

256 } 

257 total += count, 

258 bdata-»node bootmem map = NULL; 
259 

260 return total; 

261  ] 


这 里 的 bdata-»node. boot. start 是 在 前 面 的 init, bootmem, core( ) 中 设置 的 ， 表 示 整 个 物理 内 存 的 起 
点 (页 面 号 )， 其 数值 为 0， 但 是 在 特殊 的 情况 下 也 可 以 不 是 0。 而 bdata->node_low_pfn 则 为 物理 内 存 中 
最 高 的 页 面 号 (不 包括 HIGHMEM). 235—242 (TH) for 循环 扫描 整个 物理 内 存 的 所 有 页 面 ， 对 于 每 个 
页 面 都 测试 页 面 位 图 中 的 对 应 位 ， 如 果 对 应 位 为 0 就 表示 这 个 页 面 可 以 投入 分 配 。 把 相应 page 结构 中 
的 使 用 计数 设置 成 1， 假装 这 个 页 面 已 经 分 配 ， 再 对 其 调用 __free_page( )， 就 把 这 个 page 结构 挂 入 了 
所 尾 的 空闲 页 面 队列 。 可 以 说 ， 前 面 为 物理 页 面 管理 机 制 和 空闲 页 面 队列 的 建立 作 了 很 多 的 准备 ， 特 
别 是 页 面 位 图 的 设立 ， 最 终 为 的 就 是 这 一 步 。 正 因为 这 样 ， 一 旦 完成 了 这 一 步 ， 页 面 位 图 就 不 再 需要 ， 
因 前 它 所 占 气 的 物理 页 而 也 可 以 释放 了 ，251~256 行 的 for 循 坏 就 是 用 来 释放 这 些 页 面 。 

在 mem_init( ) 中 还 有 条 件 地 调用 了 一 个 函数 test_wp_bit( )， 这 是 针对 80386 CPU 而 设 的 ， 现 在 已 
经 没有 多 大 意义 了 。 注 意 627 行 对 zap_low_mappings( ) 的 调用 是 条 件 编译 的 语句 ， 仅 对 单 处 理 器 系统 
有 效 。 在 初始 化 的 第 一 阶段 建立 起 了 页 面 映射 目录 ， 为 了 向 页 式 映射 过 渡 ， 当 时 的 目录 中 同时 企 系统 
空间 和 有 几 户 空间 映射 了 物理 内 存 的 开头 8MB 空间 。 后 来 把 系统 空间 的 映射 扩展 到 了 整个 物理 内 存 ,但 
是 其 用 户 空间 的 映射 尚 末 拆除 。 而 内 核 线程 在 正常 运行 中 是 不 应 该 使 用 0xC0000000 以 下 的 地 址 的 , 所 
以 应 该 把 用 户 空间 的 映射 拆除 。 然 而 ， 在 SMP 结构 的 系统 中 ， 现 在 次 CPU MARMAT, K CPU 
开始 运行 时 也 要 经 历 初始 化 的 第 一 阶段 ， 也 要 向 页 式 映射 过 渡 ， 所 以 现在 还 不 能 拆除 这 些 映 财 。 

国 到 start_kernel( ) 的 代码 中 ，kmem_cache_sizes_init( ) 是 对 内 核 中 通用 slab 缓冲 区 管理 机 制 的 初始 
化 ， 通 过 kmem_cache_create( ) 建 立 起 大 小 分 别 为 32 字 节 、64 字 节 、…、128KB 的 缓冲 区 队列 ， 这 些 
slab 缓冲 区 是 供 内 核 通 过 kmalloc( ) 动 态 分 配 的 ,专用 的 slab 缓冲 区 则 不 在 其 中 。 接 着 , proc_root_init( ) 
是 对 特殊 文件 系统 /proc 的 初始 化 ， 读 者 已 经 在 第 5 章 看 过 这 个 函数 的 代码 。 再 下 面 古 fork_init( )， 根 
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据 物 理 内 存 的 大 小 计算 出 允许 创建 线程 (包括 进程 ) 的 数量 ， 其 代码 在 kernel/fork.c 中 ， 


[start_kernel( ) > fork, init( )] 


77 void | init fork_init (unsigned long mempages) 

78 { 

79 /* 

80 * The default maximum number of threads is set Lo a safe 
81 * value: the thread structures can take up at most half 
82 * of memory. 

83 * / 

84 max threads = mempages / (THREAD SIZE/PAGE SIZE) / 2; 

85 


86 init task. rlimLRLIMIT_NPROC]. rlim cur = max threads/2; 
87 init task. rl im[RLIMIT NPROC].rlim max = max threads/2; 
88 |] 


接 下 来 的 proc caches init(). vfs caches init( ). buffer init( ) 以 及 kiobuf_setup( ) 和 signals. init( )， 
还 有 bdev init( ) 和 inode init( )， 基 本 上 才 是 为 有 关 的 管理 机 制 建立 起 专用 slab 缓冲 区 队列 。 而 
page_cache_init( ) 则 分 配 空 间 建 芯 起 缓冲 页 面 杂 读 表 page_hash_table， 这 个 函数 的 代码 在 mm/filemap.c 
rp. 


[start kernel( ) > page. cache. init( )] 


2583 void | init page cache init (unsigned long mempages) 


2584 { 

2585 unsigned long htabie size, order; 

2586 

2587 htable size = mempages; 

2588 htable size *- sizeof(struct page *); 

2589 for(order = 0; (PAGE STZE << order) < htable size; order++) 
2590 ; 

2591 

2592 do { 

2593 unsigned long tmp = (PAGE SIZE << order) / sizeof (struct page *): 
2594 

2595 page hash bits - 0; 

2596 while((tmp >>= LUL) != OUT) 

2597 page hash _bitstt: 

2598 

2599 page hash table = (struct page **) 

2600 . get free pages(GEP ATOMIC, order); 

2601 } while(page hash table -~ NULL && -order > 0): 

2602 

2603 printk("Page-cache hash table entries: %d (order: %ld, 9d bytes) Wn, 
2604 (1 << page hash bits), order, (PAGE SIZE << order)); 
2605 if (!page hash table) 
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2606 panic("Failed to allocate page hash table\n”); 
2607 memset ((void *)page hash table, 0, PAGE HASH SIZE * sizeof(struct page *)); 
2608  ] 


这 里 引用 的 宏 操 作 定 义 于 include/linux/pagemap.h: 


42 Hdefine PAGE HASH BITS (page_hash_bits) 
43 Hdefine PAGE HASH SIZE (1 << PAGE HASH BITS) 


缓冲 页 面 杂凑 表 是 个 page 结构 指针 数组 ， 数 组 中 的 每 一 项 都 用 来 维持 一 个 page 结构 的 单 链 队 列 。 
这 个 杂凑 表 的 使 用 对 于 提高 文件 操作 和 页 面 换 入 / 换 出 的 效率 起 着 重要 的 作用 。 杂 痰 表 的 大 小 是 2 的 整 
数 次 宕 ， 大 的 杂凑 表 有 利于 使 页 面 在 队列 中 更 趋 分 散 ， 从 而 有 利于 提高 查找 效率 ， 介 是 太 人 大 了 也 没有 
必要 。 所 以 ， 这 里 根据 物理 内 存 的 大 小 先 估算 出 一 个 期 望 值 ， 然 后 试 着 按 这 个 大 小 分 配 空间 ， 如 采 分 
配 不 到 就 降格 以 求 ， 减 小 对 大 小 的 要 求 。 最 后 ， 成 功 分 配 到 所 需 的 空间 以 后 ， 就 把 它 初始 化 成 全 0。 
45 ipc_init( )， 那 当然 是 对 Sys V 进程 间 通 信 机 制 的 初始 化 。 


[start kernel( ) > ipc_init( )] 


34 void | init ipe init (void) 


db. x 

36 sem init( ); 
37 msg init( ); 
38 shm init( ); 
39 return; 

40 ) 


这 些 函 数 大 体 上 都 -- 样 ， 都 是 对 有 关 数 据 结构 如 msg. ids. shm ids 的 初始 化 ， 同 时 为 通过 /proc FF 
殊 文 件 系统 获取 有 关 信 息 创 造 条 件 ， 在 /proc 日 录 下 建立 起 “sysvipc/shm” 等 节点 。 
初始 化 的 第 二 阶段 终 寸 接近 尾声 了 ， 下 面 是 最 后 的 冲刺 。 





[start kernel( )] 


597 

598 /* 

599 * We count on the initial thread going ok 

600 * Like idlers init is an unlocked kernel thread, which will 
601 * make syscalls (and thus be Jocked). 

602 */ 

603 smp init( ); 

604 kernel thread(init, NULL, CLONE FS | CLONE FILES | CLONE SIGNAL) ; 
605 unlock kernel ( ) ; 

606 current~>need_resched = 1; 

607 cpu idle( ); 

608 } 


迄今 为 目的 初始 化 二 直 都 只 有 一 个 CPU 在 执行 (尽管 有 些 代码 是 公用 的 ), 如 果 是 SMP 结构 的 系统 ， 
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就 一 直 只 有 主 CPU 在 运行 ， 其 余 的 CPU 都 是 “次 CPU”， 都 要 受到 主 CPU 的 启动 才能 运行 。 现 在 ， 
系统 的 “经 济 基础 ”已 经 建立 ， 可 以 启动 这 些 次 CPU 的 运行 了 。 这 里 的 smp_init( ) 就 是 对 SMP 结构 的 
初始 化 ， 具 体 包括 启动 系统 中 的 各 个 次 CPU， 让 它们 完成 自身 的 初始 化 并 进入 各 自 的 空转 进程 。 读 者 
已 经 在 前 一 章 中 看 到 这 个 函数 的 代码 以 及 对 有 关 过 程 的 介绍 。 

从 smp_init( ) 返 回 到 start_kernel( ) 时 ，SMP 结构 的 初始 化 已 经 完成 ， 所 有 的 次 CPU MEARS EN 
将 经 由 start_secondary( ) 进 入 cpu_idle( )。 主 CPU 在 初始 化 的 第 二 阶段 还 有 一 件 事 要 做 ， 那 就 是 创建 内 
核 线程 init( )。 创 建 了 这 个 内 核 线程 以 后 ， 主 CPU 也 会 转 入 cpu idle( )。 可 见 ， 不 管 是 主 CPU 还 是 次 
CPU， 最 终 都 会 进入 cpu_idle( )。 当 系统 中 所 有 的 CPU 都 进入 epu_idie() 中 时 ， 它 们 就 站 在 了 同一 个 起 
点 上 ， 开 始 公平 竞争 了 。 这 个 函数 的 代码 在 kernel/process.c 中 : 


[start kernel( ) > cpu. idle( )] 


117 /* 

118 * The idle thread. There's no useful work to be 
119 * done, so just try to conserve power and have a 
120 * low exit latency (ie sit in a loop waiting for 
121 * somebody to say that they d like to reschedule) 
122 */ 

123 void cpu idle (void) 

124  ( 

125 /* endless idle loop with no priority at all */ 
126 init idle( ); 

127 current->nice = 20; 

128 current-?counter = -100; 

129 

130 while (1) { | 

131 void (*idle) (void) = pm idle; 

132 if (lidle) 

133 idle » default idle; 

134 while (!current—>need resched) 

135 idle( ); 

136 schedule( ); 

137 check pgt cache( ); 

138 } 

139 } 


XX" PALEY EET ACTA, HEAR BE BE ABORT. ERIAK CPU 都 在 执行 这 个 
(83^, MAH IEA SA dod (S PASE, HRB MARR, PROMI EE 
中 所 有 的 CPU SUE AAAS SP. 24 个 CPU 在 cpu idle( ) 中 执行 时 ， 就 是 处 十 该 CPU 的 “空转 ” 进 
程 中 。 读 者 在 前 而 已经 看 到 ， 空 转 进程 并 不 挂 入 系统 中 的 就 绪 队 列 ， 其 task struct. 结构 指针 保持 在 以 
CPU 编写 为 下 标的 数组 init_tasksf ] 中 。 由 于 空转 进程 不 挂 入 就 绪 队 列 ， 在 进程 调度 时 就 永远 不 会 以 空 
转 进程 为 目标 。 相 反 ， 只 有 在 没有 进 称 可 以 运行 时 才 会 同 到 空转 进程 中 来 。 

ABA, CPU 在 空转 进程 中 干 些 什么 呢 ? 简 言 之 就 是 循环 地 执行 一 个 空转 函数 ， 直 到 进程 的 
task struct 结构 中 的 need resched pk 1， 此 时 就 通过 schedule( ) 进 行 一 次 进程 调度 。CPU 一 进入 
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dE 


schedule( )， 就 一 直 要 到 系统 中 再 无 就 绪 进 程 可 以 运行 时 才 会 返回 到 cpu. idle( ) 中 ， 然后 就 再 等 待 
current->need_resched 变 成 1。 一 般 情 况 下 的 空转 函数 为 default_idle( )， 其 代码 册 kemel/process.c (7E 
引导 时 可 以 在 命令 行 中 通过 选择 项 “idle=poll” 将 pm idle 设置 成 指向 poll_idie( )， 但 是 两 个 函数 并 无 
本 质 的 不 同 )。 | 


[cpu. idle( ) > default idle( )] 


80 static void default idle(void) 

8l { 

82 if (current cpu data.hlt works ok && 'hlt counter) { 
83 cli( ); 

84 if (!current- need resched) 

85 safe halt( ); 

86 else 

87 sti( ) 


89  ] 


300 /* used in the idle loop; sti takes one instruction cycle to complete */ 
301 Hdefine safe halt( ) | asm | volatile | (sti; hlt”: : :”memory”) 


“4CPU¢Ecpu_idle( ) 中 ， 认 task_stmct 结 构 中 的 need_resched 又 为 0 时 ， 就 是 实在 无 事 可 干 了 ， 所 以 
把 中 断 打开 ， 并 通过 “hlt” 指 令 进入 “停机 ” 状态 ， 或 者 说 硬件 睡眠 状态 。 处 于 这 个 状态 的 CPU 个 执 
行 任何 指令 ， 直 到 有 中 汤 请 求 到 来 时 才 会 恢复 运行 ， 那 时 就 好 像 刚 结束 hlt 指 令 的 执行 一 样 。 然 后 ， 当 
CPU 结 束 对 中 断 的 处 理 时 ， 就 会 回 到 hlt 指 令 的 后 继 指令 ， 那 就 是 从 default_idle( ) 返 回 了 。 取决 于 具体 的 
中 断 ， 在 中 其 服务 程序 中 有 可 能 会 使 当前 进程 的 need_resched 标 志 变 成 1， 那 样 就 会 华 cpu_idle( ) 中 结束 
134 行 的 while 循 环 而 调用 schedule( )， 和 否则 就 又 进入 default_idle( )« 

当 系统 中 所 有 的 CPU 都 进入 cpu_iqle( ) 中 时 ， 就 绪 队 列 中 只 有 一 个 进程 ， 那 就 是 前 面 604 行 创建 的 
init( )。 所 以 ， 实 际 上 只 有 一 个 CPU 能 在 schedule( ) 中 调度 这 个 惟一 的 进程 运行 ， 因此 只 让 一 个 CPU 执 行 
schedule( ) 就 行 了 。 让 谁 执 行 schedule( ) 呢 ? “近水楼台 先 得 月 ”， 原先 的 主 CPU 在 放下 身份 与 次 CPU“ 打 
成 一 片 ”之 前 留 了 一 - 手 ,在 606 行 把 它 自己 的 need_resched 标 志 设 成 了 1, 从 而 成 了 最 先进 行 调度 的 CPU， 
当仁不让 地 取得 了 执行 init( ) 的 权利 。 而 其 他 的 CPU， 则 自 会 在 cpu_idle( ) 中 的 134 行 受到 姐 挡 而 暂时 不 
能 前 进 。 


104 系统 初始 化 (第 三 阶段 ) 


内 核 线程 init( ) 的 任务 仍然 还 是 初始 化 ， 当 然 是 进步 的 、 更 高 层次 上 的 初始 化 。 事 实 上 ， 从 虽 导 
结束 ，CPU 转 入 内 核 映 和 象 开始 ， 一 共有 三 个 阶段 的 初始 化 。 第 一 个 阶段 是 从 进入 startup_32( ) 开 始 到 进 
入 start. kernek ) 或 者 start_secondary( )。 这 个 阶段 主要 是 对 CPU 自身 的 初始 化 , + CPU 和 次 CPU EE 
经 历 这 种 初始 化 ， 但 是 主 _CPU 要 多 作 一 些 贡献 。 第 二 个 阶段 是 从 进入 start_kernel( ) 开 始 到 进入 
cpu_idle()。 这 个 阶段 主要 是 对 系统 的 “经 济 基 础 ” 即 各 种 资源 的 初始 化 ， 仅 由 主 CPU 进行 。 第 三 个 
阶段 则 是 init() 的 执行 ， 这 是 对 系统 的 “上 层 建筑 ”的 初始 化 。 表 面 上 此 时 已 无 主 CPU 和 次 CPU 之 分 ， 

.7719 . 


Linux 内 核 源 代码 情景 分 析 〔〈 下 册 ) 


由 谁 执行 init( ) 取 决 于 竞争 调度 的 结果 ， 但 是 由 于 主 CPU 预先 留 了 一 手 ， 实 际 上 总 古山 必 执行 的 。 函 
数 init ) 的 代码 在 ini/main.c 中 ， 这 个 函数 本 身 并 不 长 ， 但 是 实际 进行 的 操作 却 不 简单 ， 所 以 我 们 还 是 


要 分 段 阅 读 。 

761 static int init(void * unused) 

762 (| 

763 lock kernel( ); 

764 do basic setup( ): 

765 

766 /* 

767 * Ok, we have completed the initial bootup, and 
768 * we're essentially up and running. Get rid of the 
169 * initmem segments and start the user-mode stuff.. 
770 */ 

771 free initmem( ); 

772 unlock kernel ( ); 

773 


. 720 . 


这 里 在 对 内 核 加 锁 的 条 件 下 调用 了 do basic. setup( ) 和 free_initmem( ) 上 一 个 函数 。 表 面 上 此 时 系统 
中 只 有 … 个 进程 可 以 被 调度 运行 ,因而 只 有 一 个 CPU 能 够 运行 ， 似乎 不 必 加 锁 。 但 是 ， 下 面 就 会 看 到 ， 
在 执行 init( ) 的 过 程 中 还 会 创建 新 的 进程 。 另 一 方面 ， 如 果 发 生 中 断 ， 则 这 些 CPU 还 是 有 可 能 在 中 断 
服务 程序 中 造成 干扰 。 

先 看 do_basic_setup( )， 这 是 主要 的 ， 其 代码 在 ini/main.c 中 。 我 们 删 去 了 代码 中 一 些 条 件 编译 的 
片段 ， 另 一 些 条 件 编译 的 片段 因为 本 来 就 只 有 一 行 语句 而 没有 删 去 ， 但 是 我 们 在 这 里 基本 上 不 关心 这 
些 选 择 项 ， 有 兴趣 或 需要 的 读者 可 自行 研读 。 这 些 (我 们 不 关心 的 ) 条 件 编译 选择 项 有 : 


CONFIG_BLK_DEV_INITRD。 用 于 RAMDISK， 即 以 一 部 分 内 存 来 模拟 硬盘 。 
CONFIG_MTRR。 如 果 CPU 中 有 MTRR 寄存 器 ， 就 可 以 通过 这 个 寄存 器 按 区 间 来 管理 内 存 
的 高 速 缓冲 。 不 过 ， 也 可 以 不 用 MTRR， 而 按 页 而 米 管理 高 迷 缓 冲 。 
CONFIG_SYSCTL。 人 允许 在 运行 中 动态 地 改变 些 内 核 中 的 参数 。 
CONFIG_SBUS。SBUS 是 Sparc 工作 站 中 采用 的 总 线 。 

CONFIG_PPC。 反 用 于 Power PC 处 理 器 。 
CONFIG_MCA。 用 于 PS/2 系统 结构 中 的 Micro Channel 外 设 总 线 。 
CONFIG, ARCH. ACORN. WHF ARM 处 理 器 。 

CONFIG_ZORRO。 一 种 总 线 。 

CONFIG_DIO。 一 种 总 线 。 

CONFIG_NUBUS。Macintosh 计算 机 中 的 总 线 。 
CONFIG_ISAPNP。 用 于 ISA 总 线 上 支持 PnP (Plug and Play) 的 接口 卡 。 
CONFIG_TC。 用 于 一 种 称 为 Turbo Channel 的 总 线 。 
CONFIG_IRDA。 有 几 于 红外 线 通信 接口 。 
CONFIG_PCMCIA。 用 干 笔记 本 电脑 的 外 插 接口 卡 。 


至 于 CONFIG_PCI, 则 虽然 也 是 选择 项 (笔记 本 电脑 中 没有 PCI £x), 但 是 实际 上 不 但 用 于 桌 上 型 
PC， 也 广泛 用 于 嵌入 式 系统 中 ， 读 者 已 经 在 “设备 驱动 ” 章 中 看 过 其 初始 化 函数 pci_init( ) 的 代码 。 


第 10 章 系统 引导 和 初始 化 


[init( ) > do_basic_setupt )] 


641 
642 
643 
644 
645 
646 
647 
648 
649 
650 


652 
653 
654 
655 
656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 
683 
684 
685 
686 


* Ok, the machine is now initialized. None of the devices 
* have been touched yet, but the CPU subsystem is up and 
* running, and memory and process management works. 
* 
* 


Now we can finally start doing some real work.. 
*/ 
static void init do basic setup (void) 
{ 
#ifdef CONFIG BLK DEV INITRD 


Hendif 


Tell the world that we're going to be the grim 
reaper of innocent orphaned children. 


assumptions about where in the task array this 
can be found. 
*/ 


child reaper = current; 


* 
* 
* 
* We don’t want people to have to make incorrect 
* 
* 


Sif defined (CONFIG MTRR) /* Do this after SMP initialization */ 
/* 
* We should probably create some architecture-dependent “fixup after 
* everything is up” style function where this would belong better 
* than in init/main.c.. 
*/ 
mtrr init( ); 
Kendif 


#ifdef CONFIG SYSCTL 
sysct] init( ); 
#endif 


/* 
* Ok, at this point all CPU s should be initialized, so 
* we can start looking into devices.. 
*/ 
#ifdef CONFIG PCI 
pei_init(); 
fendif 
#ifdef CONFIG SBUS 
sbus_init( ); 
#endif 
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687 tif defined(CONEIG_PPC) 


688 ppc init( ); 

689 Hendif 

690 #ifdef CONFIG MCA 
691 mca init( ); 

692 fendif 

693 #ifdef CONFIG ARCH ACORN 
694 ecard init ( ); 
695 Bendif 

696 #ifdef CONFIG ZORRO 
697 zorro init( ); 
698 #endif 

699 #ifdef CONFIG DIO 
700 dio init( ); 

701 &endif 

702 #ifdef CONFIG NUBUS 
703 nubus init( ); 
704 #endif 

705 #ifdef CONFIG_ISAPNP 
706 isapnp init( ); 
107 #endif 

708 Hifdef CONFIG TC 

709 te Tnrt( ys 

710 fendif 

711 

712 /* Networking initialization needs a process context */ 
713 sock init( ); 
714 


715 #ifdef CONFIG BLK DEV INTTRD 


= = © © è č 4 


720 #endil 

721 

722 start context thread( ); 

723 do initcalls(); 

124 

725 /* .. filesystems .. */ 

726 filesystem setup( ); 

727 

728 #ifdef CONFIG IRDA 

729 irda device init( ); /* Must be done after protocol initialization */ 
130 #endif 

731 #ifdef CONFIG PCMCIA 

732 init pcmcia ds( ) ; /* Do this last */ 
733 Hendif 

134 

735 /* Mount the root filesystem.. */ 

736 mount root( ); 

737 
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738 mount devfs fs (); 
139 
740 &ifdef CONFIG BLK DEV INITRD 


758 #Hendif 
759 } 


跳 过 条 件 编译 部 分 ， 剩 下 也 就 不 多 了 。 我 们 把 sock init( ) 的 代码 留 给 读者 结合 第 7 BACHE, 
这 里 先 看 start_context_thread( ) 的 代码 ， 它 在 kernel/context.c FP: 


[init( ) > do_basic_setup( ) > start_context_thread( )] 


149 int start_context_thread (void) 


150 { 
151 kernel thread(context thread, NULL, 
CLONE FS | CLONE FILES i CLONE SIGHAND) ; 
152 return 0; 
153 ] 


ZERA HURE DARRE, HRS “THR” (daemon), ERATE “EEA”, 40y 
“keventd”。 其 代码 context thread( ) 也 在 kernel/context.c 中 : 


66 static int context thread (void *dummy) 


67 { 

68 struct task struct *curtask = current; 

69 DECLARE _WAITQUEUE (wait, curtask) ; 

70 struct k sigaction sa; 

71 

72 daemonize( ) ; 

73 strepy (curtask—>comm, “keventd”) ; 

74 keventd_running = 1; 

75 keventd task = curtask; 

76 

77 spin_lock_irg(&curtask—>sigmask_lock) ; 

78 siginitsetinv(&curtask- blocked, sigmask (SIGCHLD) ) ; 
79 recalc_sigpending (curtask) ; 

80 spin unlock_irg(&curtask->sigmask_lock) ; 

81 

82 /* Install a handler so SIGCLD is delivered */ 

83 sa. sa. sa handler = SIG IGN; 

84 sa. sa. sa flags = 0; 

85 siginitset(&sa.sa.sa mask, sigmask (SIGCHLD) ) ; 

86 do sigaction(SIGCHLD, &sa, (struct k sigaction *)0); 
87 

88 /* 

89 * If one of the functions on a task queue re-adds itself 
90 * to the task queue we call schedule( ) in state TASK RUNNING 
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91 */ 

92 for (;;) { 

93 set task state(curtask, TASK TNTERRUPTIBLE) ; 
94 add wait queue(&context task wg, &wait); 

95 if (TQ ACTIVE(tq context)) 

96 set task state(curtask, TASK RUNNING): 
97 schedule( ); 

98 remove wait queue(&context task wq, &wait): 
09 run task queue (&tq context); 

100 wake up(&context task done); 

101 if (signal pending(curtask)) { 

102 while (waitpid(-1, (unsigned int *)0, WALL|WNOHANG) > 0) 
103 

104 flush signals(curtask); 

105 recale sigpending(curtask); 
106 } 

107 } 

108} 


这 个 进程 的 主体 是 -个 无 穷 for 循 坏 ， 平 时 在 一 个 队列 context task wq 中 睡眠 等 待 。 在 些 设备 
驱动 程序 中 ， 有 一 些 函 数 可 能 需要 在 -一 个 进程 的 上 下 文中 执行 (而 不 是 在 中 断 处 理 的 上 下 文中 执行 )， 
keventd 就 为 这 种 消 数 充当 着 “代理 人 ”的 角色 。 需 要 把 一 个 函数 提交 给 keventd， 使 这 个 函数 得 以 在 
keventd 的 .上 下 文中 执行 时 ， 就 为 这 个 函数 准备 下 一 个 tq_struct 数据 结构 ， 然 后 通过 schedule_task( ) 把 
这 个 数据 结构 挂 入 队列 tqa_context， 并 唤醒 在 队列 context_task_wq 中 睡眠 的 keventd。 当 keventd 被 调 
度 运行 时 ， 就 会 以 它 的 名 义 、 在 它 的 上 下 文中 通过 run task queue( ) 执 行 挂 在 tq_context PHRA. A 
数 schedule, task( ) 的 代码 在 kernel/context.c 中 ， 污 者 可 与 context_thread( ) 的 代码 对 照 着 阅读 。 


44 /** 

45 * schedule_task - schedule a function for subsequent execution in process context. 
46 * @task: pointer to a &tq struct which defines the function to be scheduled. 
47 * 

48 * May be called from interrupt context.The scheduled function is run at some 
49 * time in the near future by the keventd kernel thread. If it can sleep, it 
50 * should be designed to do so for the minimum possible time, as it will be 
51 * stalling all other scheduled tasks. 

52 * 

53 * schedule task( ) returns non-zero if the task was successfully scheduled. 
54 * Tf (task is already residing on a task queue then schedule task( ) fails 
55 * to schedule your task and returns zero. 

56 */ 

57 int schedule_task (struct tq struct *task) 

58 { 

59 int ret; 

60 need keventd( FUNCTION_); 

61 ret - queue task(task, &iq context); 
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62 wake up(&context task wq); 
63 return ret; 
64  ] 


那么 , 这 种 函数 与 第 3 章 中 的 bh 函数 有 什么 区 别 呢 ? 我 们 讲 过 , bh 函数 实质 上 是 中 断 服 务 程序 的 
- 部分， 是 在 中 断 服务 的 上 下 文中 执行 的 ， 因 而 受到 一 些 限制 ， 而 在 进程 上 下 文中 执行 的 函数 就 不 党 
这 些 限 制 。 例 如， 在 bh 函数 中 就 不 应 该 有 可 能 受阻 而 需 归 睡眠 等 待 的 操作 ， 昕 在 进程 上 下 文中 执行 的 
函数 则 可 以 使 当前 进程 ， 即 keventd £z Xt A HERK. 

从 context_thread( ) 的 代码 中 还 可 以 看 出 ， - 般 的 内 核 线程 要 调用 一 个 图 数 daemonize( ) 才 能 变 成 
“守护 神 ”， 这 个 函数 的 作用 其 实 只 是 释放 从 父 进程 继承 下 来 的 一 些 资源 ( 斩 断 尘缘 才能 成 神 )， 而 改换 
门庭 投 到 init task 的 门下 ， 共 享 它 的 资源 。 


[context thread( ) > daemonize( )] 


1197 /* 

1198 * Put all the gunge required to become a kernel thread without 
1199 * attached user resources in one place where it belongs. 

1200 */ 

1201 

1202 void daemonize (void) 

1203. | 

1204 struct fs struct *#fs; 

1205 

1206 

1207 /* 

1208 * Tf we were started as result of loading a module, close all of the 
1209 * user space pages. We don't need them, and if we didn’t close them 
1210 * they would be locked into memory. 

1211 */ 

1212 exit_mm (current) ; 

1213 

1214 current~>session = l; 

1215 current->pgrp = 1; 

1216 

1217 /* Become as one with the init task */ 

1218 

1219 exit fs(current); /* current->fs->count--; */ 

1220 fs = init task. fs; 

1221 current-?fs = fs; 

1222 atomic inc (&fs—>count) ; 

1223 exit files(current); 

1224 current->files = init task. files; 

1225 atomic inc(&current-^files-^count); 

1220  ] 


回 到 do_basic_setup()， 亩 用 的 下 一 个 函数 是 do_initcalls( )， 其 代码 在 inivmain.c P: 
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linit( ) > do, basic setup( ) > do_initcalls( )] 


627 static void __ init do_initcalls (void) 


628 d 

629 initcall t **call; 

630 

631 call = & initcall start; 

632 do { 

633 (xcall) ( ); 

634 call+t; 

635 } while (call < & | initcall end); 
636 

637 /* Make sure there is no pending stuff from the initcall sequence */ 
638 flush scheduled tasks( ); 

639  ] 


PRB RA, WAIN SUE RE AE [8] ^] 9 ! 

大 家 都 知道 ， 内 核 映 象 也 跟 一 般 可 执行 程序 的 喘 象 “ 样 有 代码 段 和 数据 段 。 但 是 这 只 是 一 般 而 言 ， 
事实 上 内 核 映 象 中 还 有 其 他 些 比较 小 的 段 和 子 段 。 内 核 源 代码 中 有 个 文件 archyi386/vmlinux.lds 是 对 
ERLA GNU Id 的 连接 说 明 ， 文 件 中 描述 了 内 核 映 象 中 所 有 的 段 和 子 段 , 读者 不 妨 看 - -下 。 我 们 在 这 
是 基尼 的 着 其 中 的 两 个 ， 一 个 是 “.textinit”、 我们 称 之 为 “初始 化 代码 段 ” 另 一 个 则 是 “.initcalLinit”、 
我 们 称 之 为 “初始 化 调用 段 ”"”。 EXE X WI T (linux/init.h): 


43 /* 
44 * Used for initialization calls.. 
45 */ 


46 typedef int (*initcall_t) (void); 
47 typedef void (*exitcall t) (void); 


48 

49 extern initcall t | initcall start, | initcall end; 

51 define _initcall (fn) \ 

52 static initcall t __initcall_##fn | init call = fn 

76 Hdefine . init . attribute | (( section (”. text. init”))) 


本 05 84 ww 


gi #define __init_call \ 
. attribute | ((unused, section . (".initeall. init”))) 


内 核 的 代码 中 ， 凡 是 只 在 系统 初始 化 时 调用 一 次 ， 以 后 就 不 会 再 受到 调用 的 函数 就 在 前 面 加 上 - 
个 限定 词 __init， 例 如 上 面 的 do_initcalls( ) 本 身 就 是 这 样 的 一 个 函数 。 这 些 尔 数 企 编译 、 连 接 以 后 就 全 
都 集中 在 一 起 ， 都 在 “初始 化 代码 段 ” 中。 之 所 以 要 这 样 ， 是 因为 这 些 函 数 所 占 的 内 存 空间 在 初始 化 
完成 以 后 就 可 以 另 作 他 用 ， 而 集中 在 一 起 就 可 以 成 片 地 回收 。 

“初始 化 代 磺 段 ”中 的 函数 不 是 一 律 平等 的 ， 其 中 有 些 函 数 是 某 一 方面 初始 化 的 “入 口 函 数 ”” 所 
以 需要 在 系统 初始 化 时 从 do_initcalls( ) 中 加 以 调用 ， 而 同 在 初始 化 代码 段 中 的 另 : 些 函 数 则 白 会 因此 
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而 办 转 地 受到 调用 。 对 “入 口 函 数 ” 的 调用 通常 都 是 独立 的 ， 并 不 互相 依赖 ， 所 以 训 先 剖 后 没有 什么 
关系 。 可 是 怎样 调用 呢 ? 当然 可 以 按 常 规 把 对 这 些 函 数 的 调用 全 都 列 出 在 do_initcalls( ) 中 。 但 是 这 样 
多 少 会 给 内 核 代码 的 编写 和 维护 带 来 一 些 不 便 ， 例 如 每 要 增加 或 减少 一 种 什么 功能 时 束 得 相应 地 修改 
do_initcalls( ) 的 代码 。 为 了 减少 这 种 不 便 ， 内 核 代码 的 作者 们 采用 了 一 个 巧妙 的 办 法 ， 那 就 是 为 这 些 需 
要 在 初始 化 时 加 以 调用 的 函数 都 准备 下 一 个 函数 指针 ， 并 把 这 些 函 数 指针 都 集中 在 一 起 形成 一 个 “ 初 
始 化 调用 段 ” 实际 上 就 是 - -个 函数 指针 数组 。 这 样 ， 就 可 以 通过 一 个 循环 来 调用 所 有 这 些 函 数 了 ， 这 
就 是 do. initcalls( ) 中 的 do-while 循环 的 来 历 , 代码 中 的 __initcall_start 和 __initcall_end 分 别 是 这 个 段 的 
起 点 和 终点 。 这样 的 安排 为 编程 带 来 了 方便 。 例如， 假定 你 要 在 内 核 中 增加 一 个 功能 模块 xyz 并且. 党 
要 静态 地 连 入 内 核 映 象 中 (有 些 基 本 的 功能 不 一 定 适合 采用 动态 安装 模块 ), 而 所 有 的 程序 都 在 一 个 文件 
xyz.c 中 ， 初 始 化 入 口 为 xyz_init( )， MRE- -文件 中 加 上 一 行 “__initcall (xyz_init);” SERA T, 
并 不 需要 到 do_initcalls( ) 的 代码 中 去 作 什么 修改 。 

那么 ， 这 样 的 函数 指针 都 有 哪 一 些 呢 ? 我 们 在 这 里 只 能 略 举 数 例 。 一 个 是 mmy/slab.c 中 定义 的 
mm_cpucache_init( )， 这 是 SMP 结构 中 对 slab 缓冲 块 队列 的 一 些 优化 ， 需 要 作为 初始 化 程序 来 执行 
(mm/slab.c). 


471  initcall(kmem cpucache init); 


经 过 gee 的 颅 处 理 ， 就 会 在 初始 化 调用 段 中 生成 出 - 个 指向 kmem_cpucache_init( ) 的 函数 指针 


. jinitcall kmem cpucache init: 


static initcall t | initcall kmem cpucache init 
| attribute  ((unused, section | (l.initcall.init^))) = kmem cpucache init; 


青 如 drivers/pci/proc.c 中 定义 的 pci_proc_init( )， 这 是 对 特殊 文件 系统 /proc 中 子 目 录 /proc/pci 的 初始 
化 ， 用 十 PCI 总 线 的 管理 。 


437 _initcall (pci_proc_init); 


经 过 gcc 的 预 处 理 就 会 生成 -个 指向 pei. proc. init( ) 的 函数 指针 ._initcall_pci_proc_init。 不 过 ， 这 
些 都 不 是 我 们 所 关心 的 。 我 们 在 这 里 关心 的 是 在 fs/partitions/check.c 中 的 -个 函数 partition_setup( ): 


456 | initcall(partition setup); 


不 知道 代码 的 作者 为 什么 给 它 取 了 这 么 个 名 字 ， 其 实 这 个 函数 与 做 盘 的 分 区 毫 无 关系 ， 实 际 上 处 
理 的 是 外 部 设备 的 初始 化 ， 这 大 系统 初始 化 的 一 个 重要 组 成 部 分 。 


[init( ) > do_basic_setup( ) > do, initcalls( ) > partition. setup( )] 


442 int init partition setup (void) 
443 { 

444 device init( ); 

445 

446 #ifdef CONFIG BLK DEV RAM 
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447 #ifdef CONFIG BLK DEV INITRD 


448 if (initrd start && mount initrd) initrd load( ): 
449 else 

450 #endif 

451 rd_load( ); 

452 Hendif 

453 return 0; 

454  ] 


水 数 的 主体 (我 们 忽略 条 件 编译 部 分 ) 是 device init( )， 其 代码 在 drivers/block/genhd.c 中 : 


[init( ) > do_basic_setup( ) > do_initcalls( ) > partition setup( ) > device_init( )] 


34 void | init device init (void) 


35. 1 

36 #ifdef CONFIG PARPORT 

37 parport init( ); 

38 #endif 

39 chr. dev. init( ): 

40 blk dev init( ); 

41 sii( ); 

42 #ifdef CONFIG I20 

43 i2o init( ); 

44 #endif 

45 #ifdef CONFIG BLK DEV DAC960 
46 DAC960 Initialize( ) ; 
47 Hendif 

48 Hifdef CONFIG FC4 SOC 

49 /* This has to be done before scsi dev init */ - 
50 soc probe( ); 

5l #endif 

52 #ifdef CONFIG IEEE1394 
53 ieeel394 init( ); 
54 Hendif 

55 #ifdef CONFIG BLK CPQ DA 
56 cpqarray init( ); 

57 Hendif 

58 #ifdef CONFIG NET 

59 net dev init( ); 

60 Hendif 

61 #ifdef CONFIG_ATM 

62 (void) atmdev init( ); 
63 #endif 

64 #ifdef CONFIG VT 

65 console map init( ); 
66 Sendif 

67 ] 
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可 见 ， 这 是 所 有 外 部 设备 初始 化 的 总 入 口 ， 里 面包 括 了 块 设备 的 初始 化 blk_dev_init( )、 一 般 字符 
设备 的 初始 化 chr_dev_init( )， 还 有 一 些 特 吻 设备 的 初始 化 ， 如 并 行 口 的 parport_init( )、 网 络 设备 的 
net_dev_init( ) 和 atmdev_init( ) 等 等 。 其 中 的 有 些 初始 化 程序 已 经 在 “设备 驱动 ”一 章 中 读 过 ， 有 些 ( 网 
络 没 备 ) 不 在 本 书 内 容 的 范围 之 内 ， 有 些 则 虽 在 本 书 内 容 的 范围 之 内 但 尚未 读 过 。 但 是 ， 限 村 本 书 的 篇 
旺 ， 我 们 别 无 选择 ， 只 好 把 这 些 函 数 留 给 读者 了 。 特 别 地 ， 我 们 建议 读者 结合 “设备 驱动 ”一 - 章 读 一 
下 blk_dev_init( ) 中 调用 的 ide_init( )， 那 是 对 IDE 硬盘 的 初始 化 。 

事实 上 ， 所 有 静态 模块 的 初始 化 都 是 通过 __initcall( ) 说 明 的 ， 只 不 过 是 间接 的 ， 通 过 另 一 个 宏 定 
X. module_init( ) 转 了 个 弯 而 已 ( 风 include/linux/init.h): 


89  #define module init(x) __initcall (x); 

例如 ， 对 Ext2 文件 系统 的 支持 就 是 以 模块 的 形式 实现 的 ， 所 以 在 fs/ext2/super.c 中 就 有 这 人 么 一 行 : 
800 module_init(init ext2 fs) 

所 以 函数 init ext2, fs( ) 也 是 由 do, initcalls( ) 调 用 的 ， 实 际 上 其 代码 也 企 初 始 化 代码 段 中 : 


[init( ) > do_basic_setup( ) > do initcalls( ) > init_ext2_fs( )] 


788 static int | init init ext2 fs(void) 


789 { 
790 return register filesystem(&ext2 fs type); 
7191  } 


显然 ， 到 do initcalls( AUTRE, MARRARA EITT, AD BEC 
块 文 持 的 所 有 文件 系统 也 都 已 向 系统 登记 。 

[4 3] do_basic_setup( ) 的 代码 中 ， 下 [前 (726 行 ) 是 对 filesystem_setup( ) 的 调用 。 不 过 ， 这 里 所 谓 “ 文 
件 系统 ”只 是 指 几 个 特殊 文件 系统 ， 主 要 是 devfs。 其 他 还 有 作为 条 件 编译 选择 项 的 “网 络 文件 系统 ” 
nfs 以 及 对 Unix96 PTY“ 擅 终端 ”的 支持 ， 这 些 特殊 文件 系统 的 安装 并 不 依赖 于 文件 系统 的 根 设备 。 
其 中 devis 的 安装 是 在 安装 根 设备 之 前 的 准备 上 作 ,， 如 果 系 统 支持 devfs， 则 devfs 的 初始 安装 对 于 企 引 
Fme TH RH root" HRA FH BY. ASIE: 这 里 对 devfs 的 安装 只 是 “ 预 安 装 ” 就 是 通过 kern_mountt ) 
进行 的 安装 ， 以 后 还 要 通过 do_mount( ) 冉 “ 重 安装 ”一 次 。 


[init( ) > do_basic_setup( ) > filesystem_setup( )] 


28 void | init filesystem setup (void) 


29 | 

30 init devfs fs( ); /* Header file may make this empty */ 
3l 

32 #ifdef CONFIG_NFS_FS 

33 init nfs. fs( ): 

34 #endif 

35 


36 #ifdef CONFIG DEVPTS FS 
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37 init devpts_fs( ); 
38 Hendif 
39 } 


现在 到 了 安装 文件 系统 根 设 备 的 时 候 了 ， 根 设备 的 安装 不 同 于 此 后 其 他 设备 的 安装 。 般 设备 ( 文 
件 系统 ) 的 安装 都 要 先 通 过 /dev 目录 找到 代表 着 待 安装 设备 的 节点 ， 从 而 取得 待 安装 设备 的 设备 写 。 而 
安装 点 - 般 ( 除 些 特殊 文件 系统 外 ) 也 是 在 已 安装 文件 系统 中 的 某 个 节点 , 安 粮 根 设备 时 /dev 日 录 尚 不 
存在 ， 但 是 一 般 根 设备 就 是 引导 设备 ， 其 设备 号 已 经 在 参数 块 中 传递 了 过 来 ， 而 根 设 备 的 安装 点 “/” 
本 来 就 不 在 已 经 安装 的 文件 系统 中 ， 人 不 需要 寻找 。 不 过 ， 如 果 在 引导 命令 行 中 指定 了 以 另 个 设备 作 
为 根 设备 , 那 就 需要 一 些 起 码 的 根据 设备 名 找到 设备 号 的 能 力 , 这 就 是 在 此 之 前 先 预 安装 devfs 的 月 的 。 
此 外 还 有 一 点 不 同 之 处 ， 和 常规 的 安装 都 事先 知道 设备 上 是 哪 一 种 文件 系统 ( 见 do_mount( )0] 2:380. i 
根 设备 的 安装 却 并 不 事先 知道 文件 系统 的 类 型 ， 而 需要 在 安装 时 试 痰 。 所 以 ， 内 核 中 有 个 明 数 
mount_root( ) 专 用 于 根 设备 的 安装 ， 其 代码 在 fs/super.c 中 。 这 个 晃 数 比较 长 ， 所 以 我 们 分 段 阅 读 ， 同 
时 我 们 也 从 代码 中 删 去 了 一 些 条 件 编译 的 片段 。 


[init( ) > do basic setup( ) > mount_root( )] 


1462 void | init mount root (void) 


1463 | 

1464 struct file system type * fs type; 
1465 struct super block * sb; 

1466 struct vfsmount *vfsmnt; 

1467 struct block device *bdev = NULL; 
1468 mode t mode; 

1469 int retval; 

1470 void *handle; 

1471 char path[64]; 

1472 int path start = -1; 

1473 


1474 #ifdef CONFTG ROOT NFS 
1507 Hendif 

1508 

1509 #ifdef CONFIG BLK DEV FD 


» EL M E" 


1529 Hendif 


1530 

1531 devfs make root (root device name); 

1532 handle = devfs find handle (NULL, ROOT DEVICE NAME, 

1533 MAJOR (ROOT DEV), MINOR (ROOT DEV), 

1534 DEVFS SPECIAL BLK, 1); 

[535 if (handle) /* Sigh: bd*( ) functions only paper over the cracks */ 
1536 { 

1537 unsigned major, minor; 

1538 

1539 devfs get maj min (handle, &major, &minor); 
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1540 ROOT_DEV = MKDEV (major, minor) ; 


代码 中 的 root_device_name[ ] 是 个 全 局 量 ， 如 果 在 引导 命令 行 中 使 用 了 “root=” 选 择 项 ， 就 会 在 C 
个 初始 化 函数 root_dev_setup( ) 中 从 这 个 选择 项 中 将 设备 名 的 前 纵 “/dev/” 去 掉 ， 然 后 复制 到 这 个 字 
SHAT. eR devfs_make_root( ) 把 旧式 的 设备 名 如 “ide/hd/0” 等 等 转换 成 新 式 的 设备 名 ， 其 一 般 形式 
为 “/hostO/busl/target2/lun3/part4”。 然 后 ， 便 通过 devfs find handle( ) 在 devfs 文件 系统 中 寻找 ， 这 里 
用 到 了 一 些 宏 操作 定义 或 常数 定义 ( 见 fs/super.c 及 include/linux/devfs fs, kernel.h): 


48 #ifdef CONFIG BLK DEV INITRD 

49 # define ROOT DEVICE NAME((real root dev --ROOT DEV) ? root device name:NULL) 
50 Helse 

51 &define ROOT DEVICE NAME root device name 

52 Sendif 


59 kdev t ROOT DEV; 


ROOT DEV 看 起 来 像 是 个 常数 ， 实 际 上 却 是 个 全 局 变量 。 这 个 变量 的 初 值 起 在 系统 初始 化 的 第 ~ 
阶段 在 setup_arch( ) 中 设置 的 ， 实 际 上 来 自 引导 辅助 程序 和 BIOS. ~ 般 而 言 ， 从 什么 设备 上 引导 ， 那 
个 设备 就 是 根 设 备 ， 除 非 道 过 “root=” 选 择 项 另 加 指定 。 读 者 也 许 感到 困惑 : 系统 是 由 BIOS 引导 的 ， 
而 “设备 号 ”是 Unix/Linux 所 特有 的 ， 就 算 BIOS 从 IDE 接口 上 的 某 个 磁盘 或 静 区 引导 ， 它 又 怎么 能 
知道 这 个 设备 在 Linux 中 的 设备 号 是 什么 呢 ? 其 实 ，BIOS (或 者 LLO 只 是 从 引导 设备 上 读 入 了 引导 
扇 区 ， 并 且 把 引导 扇 区 在 内 存 中 的 映 象 当 作 可 执行 代码 而 跳 转 旬 它 的 开头 处 ， 以 后 的 事 就 取决 于 引导 
鹿 区 的 内 容 和 辅助 程序 setup 了 。 而 这 二 者 是 与 具体 的 系统 密切 相关 的 ， 实 际 上 就 是 系统 的 一 部 分 ， 而 
且 就 存放 在 具体 的 设备 上 ， 当 然 就 能 知道 这 设备 的 设备 号 是 什么 了 。 

RDA, REPKY 1531~ 1541 行 是 为 通过 “root=” 选 择 项 改变 根 设备 而 设 的 。 如 果 在 引导 命令 行 中 
没有 使 用 这 个 选择 项 ， 或 者 内 核 不 支持 devfs， 那 就 保持 ROOT_DEV 的 初 值 不 变 。 


[init( ) > do_basic_setup( ) > mount_root( )] 


1542 

1543 /* 

1544 * Probably pure paranoia, but I'm less than happy about delving into 
1545 * devfs crap and checking it right now. Later. 

1546 */ 

1547 if (!ROOT DEV) 

1548 panic(^T have no root and I want to scream”); 

1549 

1550 bdev = bdget(kdev t to nr(ROOT DEV)); 

1551 if (!bdev) 

1552 panic( FUNCTION — ^: unable to allocate root device”); 

1553 bdev->bd op = devfs get ops (handle); 

1554 path start = devfs generate path (handle, path + 5, sizeof (path) - 5); 
1555 mode - FMODE READ; 
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1556 if (!(root mountflags & MS_RDONLY)) 

1557 mode |= FMODE WRITE: 

1558 retval = blkdev_get(bdev, mode, 0, BDEV FS); 

1559 if (retval == FROFS) { 

1560 root mountflags |= MS RDONLY: 

1561 retval = blkdev get(bdev, FMODE READ, 0, BDEV FS): 
1562 } 

1563 if (retval) { 

1564 /* 

1565 * Allow the user to distinguish between failed open 
1566 * and bad superblock on root device. 

1567 */ 

1568 printk (VFS: Cannot open root device \“%s\” or %s\n”, 
1569 root device name, kdevname (ROOT DEV)): 

1570 printk ("Please append a correct V'root-X" boot option\n’): 
1571 panic("VFS: Unable to mount root fs on %s”, 

1512 kdevname (ROOT_DEV) ) ; 

1573 ] 

1574 

1575 check disk change (ROOT DEV); 

1576 sb = get super (ROOT DEV) ; 

1577 if (sb) | 

1578 fs type = sb-^s type; 

1579 goto mount it; 

1580 } 

1581 


知道 了 根 设备 的 设备 号 ， 下 面 的 操作 就 与 普通 的 安装 没有 多 大 不 同 了 上 了， 因为 设备 驱动 层 已 经 在 此 
之 前 完成 了 初始 化 ,根据 设备 写 就 可 以 找到 有 关 的 数据 结构 。 例 如 ，1550 行 的 bdget ) 根 据 设备 号 找到 
或 者 创建 给 定 设备 的 block_device 数据 结构 ， 读 者 已 经 在 “设备 驱动 ”一 - 章 中 读 过 它 的 代码 。1553 行 
的 devfs_get_ops( ) 找 到 设备 的 block device operations 数据 结构 。 然 后 ，blkdev_get( ) 通 过 这 个 数据 结 
构 中 提供 的 open 操作 “打开 ”目标 设备 。 这 里 先 在 1558 行 试 着 按 可 写 模式 打开 ， 如 果 失 败 就 在 1561 
行 租 按 只 访 模 式 打 开 。 至 十 1576 行 的 get_super( )， 则 扫描 已 经 读 入 系统 中 的 超级 快 队 列 。 如 果 在 这 个 
队列 由 找到 了 目标 设备 上 的 趋 级 块 ， 就 可 以 知道 该 设备 上 的 文件 系统 是 什么 类 型 的 (1578 行 )， 从 而 可 
以 进入 真正 的 “安装 ”操作 (1579 行 )。 当 然 ， 对 于 根 设备 的 安装 ， 其 超级 块 还 不 在 超级 块 队列 中 ， 央 
而 而 要 从 设备 上 读 入 。 

RIETTE. 


[init( ) > do_basic_setup( ) > mount_root( )] 


1582 read lock(&file systems lock); 

1583 for (fs type = file systems ; fs type ; fs type = fs type-?next) { 
1584 if (!(fs type—-^fs flags & FS REQUIRES DFV)) 

1585 continue; 

1586 if (!try inc mod count(fs type-^owner)) 

1587 continue; 
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1588 read unlock(&file systems lock); 

1589 sb = read super (ROOT DEV, bdev, fs type, root mountflags, NULL, 1) ; 
1590 if (sb) 

1591 goto mount it; 

1592 read lock(&file systems lock); 

1593 put filesystem(fs type); 

1594 } 

1595 read unlock(&file systems lock); 

1596 panic (“YFS: Unable to mount root fs on %s”, kdevname(ROOT DEV)); 
1597 


内 核 中 的 file systems 是 一 个 file system type 数据 结构 队 州 ， 队 列 中 的 每 个 数据 结构 都 代表 着 一 
种 受到 内 核 支 持 的 文件 系统 。 队 列 中 的 各 个 数据 结构 都 通过 函数 指针 提供 其 自己 的 read, super 操作 。 
这 里 依次 以 各 种 文件 系统 的 file_system_type 数据 结构 为 参数 调用 read_super( )， 实 际 上 就 是 让 各 种 文 
件 系统 都 来 试 试 ， 看 谁 能 从 设备 上 读 入 一 个 格式 相符 的 超级 块 。 读 者 已 经 在 “文件 系统 ”一 章 中 读 过 
read_super( ) 的 代码 。 

读 入 了 超级 块 ， 就 可 以 进入 安装 阶段 了 。 


[init( ) > do. basic setup ) > mount root( )] 


1598 mount it: 


1599 printk (“YFS: Mounted root (%s filesystem) %s. \n’, 

1600 fs type-^name, 

1601 (sb->s_ flags & MS RDONLY) ? ^ readonly” : ""): 

1602 if (path start >= 0) { 

1603 devfs mk symlink (NULL, “root”, DEVFS FL DEFAULT, 
1604 path * 5 * path start, NULL, NULL); 

1605 memcpy (path * path start, "/dev/^, 5); 

1606 vfsmnt = add vfsmnt(NULL, sb-?^s root, path + path start); 
1607 ] 

1608 else 

1609 vfsmnt = add vfsmnt(NULL, sb-^s root, "/dev/root"); 
1610 /* FIXME: if something will try to umount us right now... */ 
1611 if (vfsmnt) { 

1612 set fs root(current-^fs, vfsmnt, sb-»s root); 

1613 set fs pwd(current- fs, vfsmnt, sb->s root); 

1614 if (bdev) 

1615 bdput(bdev); /* sb holds a reference */ 

1616 return; 

1617 } 

1618 panic ("VFS: add vfsmnt failed for root fs”); 

1619 } 


函数 add_vfsmnt( ) 的 代码 已 经 在 “文件 系统 ”一 章 中 读 过 ， 这 里 就 不 多 说 了 。 函 数 set_fs_root( ) 
设置 当前 进程 的 fs struct 数据 结构 中 的 root 和 rootmnt 两 个 指针 ， 使 它们 分 别 指向 根 节点 的 dentry 数 
据 结构 ,就 是 这 里 的 sb->s_root, 以 及 安装 根 设备 时 的 “连接 件 ”vfsmount 数据 结构 , 就 是 这 里 的 vfsmnt。 
. 733. 


Linux PSU (CAT SEA PT C PAD 

同时 ，set_fs_pwd( ) 将 当前 进程 的 “当前 工作 目录 ” BE pwd 和 pwdmnt 两 个 指针 也 设置 成 指 | 时 这 两 个 
数据 结构 。 读 者 将 会 看 到 ， 现 在 的 这 个 当前 进程 就 是 系统 中 所 有 进程 的 始祖 ， 把 这 个 进程 的 这 些 指针 
设置 好 了 ， 以 后 由 它 fork ) 出 来 的 进程 就 都 会 继承 这 些 指 针 ， 以 整个 文件 系统 的 根 为 本 进程 逻辑 意义 
上 和 的“ 根 ”并 且 以 此 为 本 进程 的 当前 工作 日 录 。 

完成 了 根 设 备 的 安装 以 后 ， 如 果 需 要 的 话 ， 就 可 以 进一步 完成 特殊 文件 系统 devfs 的 安装 。 在 安装 
根 设备 之 前 ， 已 经 通过 kern_mount( ) 将 devfs 预 安装 了 一 次 。 但 是 ,我 们 以 前 提 到 过 ， 有 些 文件 系统 需 
要 在 此 后 冉 * 重 安装 盖 -次 ,这 样 才能 与 基体 文 件 系 统 中 的 某 个 具体 的 节点 挂 上 钩 。 所 以 do_basic_setup( ) 
接着 就 调用 mount_devfs_fs( ) 米 做 这 件 事 (fs/devfs/base.c)。 


[init( ) > do, basic setup( ) > mount. devfs fs( )] 


3363 void | init mount devfs fs (void) 


3364 | 

3365 int err, 

3366 

3367 if ( (boot options & OPTTON NOMOUNT) ) return; 

3368 err = do mount ('none", "/dev", "devfs", 0, "^); 

3369 if (err == 0) printk (“Mounted devfs on /dev\n") ; 

3370 else printk ('Warning: unable to mount devfs, err: *dWn', err); 


3371 } /x End Function mount devfs fs */ 


可 见 ， 如 果 内 核 支持 devfs, FARA, AAI SE ee WAE. 

gt, do. basic setup ) 的 执行 已 经 完成 。 回 到 init( ) 的 代码 中 ， 初 始 化 代码 段 中 的 函数 都 已 经 执行 
过 了 。 如 前 所 述 ， 这 些 函数 部 只 需要 在 系统 初始 化 时 执行 一 次 ， 现 在 既然 已 经 完成 ， 就 可 以 “过 河 掩 
WE". 回收 它们 所 占 的 空间 另 作 他 用 了 。 函 数 free_initmem( ) 的 作用 就 是 逐个 页 面 地 回收 整个 初始 化 代 
公 段 的 内 存 空 间 ， 其 代码 在 mmyinitc 路: 


[init( ) > free initmem( )] 


656 void free initmem(void) 


657 { 
658 unsigned long addr; 
659 
660 addr = (unsigned long) (& init begin); 
661 for (; addr € (unsigned long) (& init end); addr += PAGE STZE) { 
662 ClearPageReserved(virt, to pago (addr)); 
663 set page count(virt to page(addr), 1); 
664 free page (addr) ; 
665 totalram pagest+: 
666 } 
667 printk (“Freeing unused kernel memory: %dk freedNn ， 
(& _init_end - & init begin) >> 10); 
668 } 


至 此 ， 内 核 的 初始 化 已 经 完成 ， 下 面 要 再 往 上 跑 一 层 ， 处 理应 用 层 的 初始 化 ， 为 应 用 程序 的 过 行 ， 
. 734. 


第 10 章 ”系统 引导 和 初始 化 


首先 是 系统 管理 作 好 准备 了 。 我 们 接 者 往 下 看 init( ) 的 代码 。 


[init( )] 


774 
775 
776 
TIT 
778 
779 
780 
781 
182 
183 
784 
785 
786 
787 
788 
789 
790 
791 
(92 
793 
794 


if (open(”/dev/console”, O_RDWR, 0) < 0) 
printk("Warning: unable to open an initial console. \n”); 


(void) dup(0); 
(void) dup(0); 


/* 

* We try each of these until one succeeds. 

* 

* The Bourne shell can be used instead of init if we are 
* trying to recover a really broken machine. 


*/ 


if (execute command) 
execve(execute command,argv init,envp init); 
execve ("/sbin/init/,argv init,envp init); 
execve ("/etc/init", argv init, envp init); 
execve ("/bin/init^,argv init,envp init); 
execve ("/bin/sh^,argv init,envp init); 
panic("No init found. Try passing init= option Lo kernel. ^); 


} 


这 里 的 dup( ) 和 execve( ) 玫 是 系统 调用 。 当 前 进程 init( ) 是 个 运行 于 系统 空间 的 内 核 线 程 ， 虽 然 也 


能 作 系 统 调用 ， 却 不 能 像 在 用 户 空间 那样 通过 普通 的 C 语言 库 消 数 进行 ， 而 要 由 内 核 中 的 系统 调用 入 
ORX, RIJA execvet ) 为 例 米 看 这 些 函 数 的 定义 {include/asm-i386/ unistd.h): 


273 
274 
279 
276 
277 
278 
279 
280 
281 
282 


233 
234 
235 
236 
237 
238 


üdefine syscall3 (type, name, typel, argl, type2, arg2, type3, arg3) V 
type name(typel argl type? arg2,type3 arg3) \ 
LÀ 
long | res; \ 
asm | volatile (“int $0x80^ \ 
: “eq” (res) X 
: ^0" (. NR 88name), "b^ ((long) (argl)), "c^ (Gong) (arg2)), \ 
^d" (Clong) (arg3))) ; \ 
| Syscall return(type, res); \ 


} 


#define __syscall_return(type, res) ^ 


do { \ 
if ((unsigned long) (res) >= (unsigned long) (-125)) (^ 
errno = -(res) ; V 
res = -1; \ 
PN 
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239 return (type) (res); \ 
240 | while (0) 


宏 操 作 ._syscall3( ) 用 于 所 有 带 王 个 参数 的 系统 调用 ， 而 execve( )b AE IURE RAE: 


342 static inline _syscall3 (int, execve, const char *, file, 
char **, argv, char **, envp) 


经 过 geo HUJTRAEREREUAG. ERK D WX execve( ) 的 定义 : 


int execve(const char * file, char **argv, char **cnvp) 
{ 
long | res; 
asm — volatile (“int $0x80" 
(Eat ( Tes) 
: ^0" ( NR execve), "b^ ((long) (file)),"c" (Gong) (argv)), 
"d" ((long) (envp))) ; 


do { 
if ((unsigned long) (res) >= (unsigned long) (C125)) { 
errno = -(res); 
res = -1; 
} 
return (int) (res); 
} while (0) 
} 


对 这 段 代 码 吕 能 需要 一 些 解释 。 这 时 的 输入 部 说 明 把 参数 file 放 在 寄存 崔 %ebx 中 ,把 参数 argv 放 
在 寄存 器 Wecx 中 ， 把 参数 enp RENTA %edx 中 。 系 统 调用 号 __NR_execve 则 放 在 操作 数 0 中 ， 
那 就 是 局 部 变量 res. Hi D ores 是 局 部 量 ， 所 以 是 在 堆栈 中 ， 而 且 在 这 里 是 在 堆栈 顶部 。 所 有 这 些 正好 
构成 了 执行 指令 “int 0x80” 进 入 系统 的 条 件 。 同 时 ， 答 入 部 又 说 明 res 既是 局 部 变量 ( 因 有 出 在 堆栈 中 )， 
MER A Ae %eax 结合 ， 因 为 系统 调 几 遂 过 和 eax IR B) s AR. 

需要 人 在 内 核 中 调用 的 其 他 系统 调用 ， 如 dup( )、open( ) 等 等 ， 都 是 按 同 样 的 方式 生成 的 。 内 核 中 相 
应 地 还 有 几 于 不 人 带 参 数 、 带 1 个 参数 、 带 2 个 参数 等 等 的 宏 操 作 _syscall0( )、_syscalll( )、_syscall2( ) 
等 等 。 

前 徊 的 代码 中 先 打 开 /dev/iconsole， 由 丁 这 是 当前 进程 第 一 次 打开 文件 ， 其 打开 文件 号 必定 为 0。 
接着 调用 dup ) 把 由 打开 文件 号 0 所 代表 的 连接 复制 两 次 ， 就 使 打开 文件 号 0、1 和 2 都 成 为 同一 个 连 
接 的 代表 ， 这 就 是 通常 所 说 的 “标准 输入 ”、“ 标 准 输 出 ”以 及 “标准 出 蚀 信 息 ” 王 个 通道 stdin, stdout 
以 及 stderr。 打 开 了 这 三 个 标准 VO 通道 以 后 ， 就 可 以 像 普通 在 shell 下 有 户 动 的 进程 那样 ， 首 过 系统 调 诈 
execve( ) 执 行 各 种 可 执行 程序 了 。 读 者 在 第 4 章 中 看 到 ，execve( ) 是 条 不 归 之 路 ,，，: 旦 执行 目标 程序 成 
功 ， 最 后 就 从 日 标 程序 直接 exit() 了 。 但 是 ， 如 果 执 行 月 标 程 序 失 败 ， 例 如 在 文件 系统 中 找 不 到 且 标 程 
序 , 那 就 会 从 execve( ) 失 败 返 回 。 所 以 , 这 里 实际 上 是 依次 尝试 执行 /sbin/init、 /etc/init, /bin/init, /bin/sh. 

- 般 来 说 ， 至 少 /bin/sh 是 一 定 可 以 执行 成 功 的 ， 否 则 系统 就 根本 无 法 这 行 了 。 

那么 ，/sbinyinit 又 干 些 什么 呢 ? 主 要 是 根据 文件 /etc/inittab 的 规定 分 又 (创建 ) 出 一 些 进 一 步 初始 化 
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的 进程 ， 包 括 对 /etc/re.dire 的 执行 ， 不 过 那 已 经 不 属 十 内 核 的 范围 了 ， 读 者 可 以 通过 命令 “man 8 init" 
疯 读 对 这 个 程序 的 说 明 ， 或 阅读 有 关 Linux 系统 管理 的 资料 。 分 叉 出 来 的 进程 中 还 包括 若干 执行 
/sbin/getty 的 进程 ， 这 些 进 程 后 来 就 变 成 了 执行 /bimlogin 或 /sbin/sulogin 的 进程 。 就 这 样 ， 这 个 以 系统 
初始 化 为 开始 的 进程 就 成 为 整个 系统 中 所 有 进程 共同 的 “祖宗 ”， 这 个 进程 以 后 一 直 留 在 系统 中 ， 就 是 
系统 的 1 号 进程 。 

总 之 ， 系 统 中 有 几 个 处 理 嚣 就 有 儿 个 0 号 进程 ， 那 就 是 各 个 处 理 嚣 的 空转 进程 ， 这 些 进 程 都 不 在 
进程 的 杂凑 队列 中 ， 也 不 在 就 绪 进 程 队 列 中 ， 不 参与 进程 调 嵌 。 但 是 ，!1 号 进程 却 只 有 一 个 ， 这 是 系统 
中 所 有 进程 的 祖宗 ， 从 这 个 进程 开始 的 所 有 进程 都 参与 调度 。 


10.5 系统 的 关闭 和 重 引 年 


最 后 我 们 再 看 看 关闭 系统 的 过 程 。Linux 为 此 提供 了 一 个 系统 调用 reboot( )， 内 核 中 的 实现 为 
sys reboot( )。 顾名思义 , 这 个 系统 调用 的 功能 应 该 是 “ 重 引 导 ”, 但 是 实际 上 这 是 个 多 功能 的 系统 调用 。 
根据 参数 cmd 的 值 ， 这 个 系统 调用 可 以 用 于 以 下 … 些 目的 : 

e “ 重 引 导 ”(LINUX_REBOOT_CMD_RESTART 或 LINUX_REBOOT_CMD_RESTART2)。 

e “停机 ”(LINUX_REBOOT_CMD_HALT)。 

e “关机 ”(LINUX_REBOOT_CMD_POWER_OFP)。 

此 外 ， 还 可 以 用 来 设置 键 组 CA_D， 即 Ctrl-Alter-Delete 三 键 同 按时 的 作用 。 在 DOS 和 Windows 
操作 系统 上 同时 按 这 三 个 键 表示 重 引 导 〈 在 Windows NT 上 则 又 不 是 )， 所 以 Linux 允许 用 户 选 择 用 或 
不 用 这 个 特殊 的 组 合 。 

在 为 重 引导 或 停机 而 调用 reboot ) 之 前 , 应 用 进程 应 该 先 调用 男 一 个 系统 调用 sync( )， 以 保证 把 文 
件 系统 中 所 有 出 经 改变 了 的 缓冲 区 和 数据 结构 的 内 容 先 写 入 磁 氢 。 

函数 sys_reboot( ) 的 代码 在 kernel/sys.c 中 : 


261 /* 
262 * Reboot system call: for obvious reasons only root may call it, 

263 * and even root needs to set up some magic numbers in the registers 

264 * so that some mistake won t make this reboot the whole machine. 

265 * You can also set the meaning of the ctrl-alt-del-key here. 

266 * 

267 * 

268 x/ 

269 asmlinkage long sys_reboot (int magicl, int magic2, unsigned int cmd, void * arg) 
270 { 


reboot doesn’t sync: do that yourself before calling this. 


271 char buffer [256] ; 

272 

273 /* We only trust the superuser with rebooting the system. */ 
214 if ('capable(CAP SYS BOOT) ) 

215 return -EPERM; 

276 

277 /* For safety, we require “magic” arguments. */ 

278 if (magicl != LINUX REBOOT MAGICI || 
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280 
281 
282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
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311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
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(magic2 1= LINUX_REBOOT_MAGIC2 && magic2 != LINUX REBOOT MAGIC2A && 
magic2 != LINUX REBOOT MAGIC2B) ) 
return —EINVAL: 


lock kernel ( ); 
switch (cmd) { 
case LINUX REBOOT CMD RESTART: 
notifier call chain(&reboot notifier list, SYS RESTART, NULL); 
printk(KERN EMERG “Restarting system. m^); 
machine restart (NULL); 
break; 


case LINUX REBOOT CMD CAD ON: 
CAD=1; 
break; 


case LINUX_REBOOT CMD CAD OFF: 
CAD=0; 
break; 


case LINUX REBOOT CMD HALT: 
notifier call chain(&reboot notifier list, SYS HALT, NULL); 
printk(KERN EMERG “System halted. W^); 
machine halt( ) ， 
do_exit (0): 
break; 


case LINUX REBOOT CMD POWER OFF: 
notifier call chain(&reboot notifier list, SYS POWER OFF, NULL): 
printk(KERN EMERG "Power down. n"); 
machine power off(); 
do_exit (0); 
break; 


case LINUX REBOOT CMD RESTART2: 
if (strncpy_from_user (&buffer[0], (char *)arg, sizeof (buffer)-1) < 0) 
unlock kernel ( ); 
return —EFAULT; 
} 
buffer[sizeof (buffer) - 1] = \0’; 


notifier call chain(&reboot notifier list, SYS RESTART, buffer); 
printk (KERN EMERG “Restarting system with command '*s'.Wn^, buffer): 

machine restart (buffer); 

break; 


default: 
unlock kernel( ); 
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327 return —EINVAL; 
328 } 

329 unlock kernel ( ) ; 
330 return Q; 

331 } 


在 sys, reboot( ) 所 实现 的 这 些 功 能 中 , 以 重 引导 最 为 复杂 ， 所 以 我 们 在 这 里 读 一 下 与 此 有 关 的 代码 ， 
其 余 的 就 留 给 读者 了 。 前 面 讲 过 ， 系 统 引 导 时 可 以 使 用 一 个 带 选 拌 项 的 命令 行 ， 也 可 以 不 使 用 命令 行 ， 
所 以 sys reboot( ) 也 为 重 引导 提供 了 两 个 不 同 的 命令 码 。 我 们 只 看 不 用 命令 行 的 情景 ， 就 是 代码 中 的 
286 一 289 fT. 

内 核 中 的 有 些 模块 (通常 是 外 部 设备 ) 可 能 要 求 在 关闭 系统 或 重 引 导 之 前 执行 一 些 特殊 的 操作 ， 人 鲍 
如 有 些 几 的 硬盘 就 要 求 在 断 电 之 前 先 把 磁头 移 到 一 个 特定 的 “起 降 ” 磁 道上 。 所 以 ， 要 提供 一 种 手段 ， 
使 这 样 的 模块 在 关闭 系统 或 重 引导 之 前 能 得 到 通知 ， 执 行 “ 个 预定 的 函数 。 这 就 是 代码 中 调用 
notifier_call_chain( ) 的 目的 。 如 果 “个 模块 要 求 在 关闭 系统 或 重 引导 之 前 执行 一 个 函数 ， 就 可 以 准备 寻 
一 个 notifier_block 数 据 结构 ， 并 向 系统 登记 。 这 种 数据 结构 的 定义 在 include/linux/notifier.b 中 : 


14 struct notifier block 


i 4 

16 int (*notifier call) (struct notifier block *self, unsigned long, void x); 
17 struct notifier block *next; 

18 int priority; 

19 }; 


结构 中 的 函数 指针 就 用 十 需要 在 关闭 系统 或 重 引导 之 前 执行 的 函数 。 淮 备 好 notifier block BHR 
构 以 后 ， 就 可 以 通过 register_reboot_notifier( ) M RF ic (Kernel/sys.c): 


149 int register reboot notifier (struct notifier block * nb) 


150 { 
151 return notifier chain_register (&reboot_notifier list, nb) ; 
152 } 


在 sys. reboot( ) 中 ， 当 要 关闭 系统 或 重 引 导 系统 的 时 候 ， 就 通过 notifier call. chain ) 执 行 已 经 登记 
的 函数 ， 调 用 的 参数 之 “是 一 个 表示 调用 原因 的 代 龟 。 


[sys reboot( ) > notifier_call_chain( )] 


105 f** 

106 *  notifier call chain - Call functions in a notifier chain 
107 * Qn: Pointer to root pointer of notifier chain 

108 * Oval: Value passed unmodified to notifier function 

109 * Qv: Pointer passed unmodified to notifier function 

110 * 

111 * Calls each function in a notifier chain in turn. 

112 * 

113 * If the return value of the notifier can be and d 
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114 * with *NOTIFY STOP MASK, then notifier call chain 


115 * will return immediately, with the return value of 
116 * the notifier function which halted execution. 
117 * Otherwise, the return value is the return value 
118 * of the last notifier function called. 

119 */ 

120 

121 int notifier call chain(struct notifier block **n, unsigned long val, void *v) 
122 { 

123 int ret-NOTIFY DONE; 

124 struct notifier block *nb = *n; 

135 

126 while (nb) 

127 { 

128 ret=nb->notifier_cal] (nb, val, v): 

129 if(ret&NOTIFY STOP MASK) 

130 { 

131 return ret; 

132 } 

133 nb=nb->next; 

134 } 

135 return ret; 

136 ] 


调用 了 已 经 登记 的 函数 以 后 ， 就 可 以 通过 machine restart( ) 重 引导 了 ， 这 个 函数 的 代码 在 
arch/i386/kernel/process.c 中 : 


[sys reboot( ) > machine. restart( )] 


346 void machine restart(char * unused) 


347 { 

348 #if CONFIG SMP 

349 /* 

350 * Stop all CPUs and turn off local APICs and the IO-APIC, so 
351 * other OSs see a clean IRQ state. 

352 */ 

353 smp send stop( ); 

354 disable IO APIC( ) : 

355 #endi f 

356 

357 if(!reboot thru bios) { 

358 /* rebooting needs to touch the page at absolute addr 0 */ 
359 *((unsigned short *)  va(0x472)) - reboot mode; 

360 for: (Quo 

361 int i; 

362 for (i=0; i<100; i++) { 

363 kb wait( ); 

364 udelay (50); 
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365 outb (Oxfe, 0x64) ; /* pulse reset low */ 
366 ude lay (50); 

367 } 

368 /* That didn't work - force a triple fault.. */ 
369 asm. volatile  ('lidt %0”: :^m" (no idt)); 
370 asm | | volatile ("int3”); 

371 } 

372 } 

373 . 

374 machine real restart(jump to bios, sizeof (jump_to_bios)); 
3755  ] 


对 于 SMP 结构 的 系统 ， 先 要 通过 smp send stop( ) 疝 系统 中 的 其 他 CPU 发 送 一 个 请 求 停机 的 处 理 
器 间 中 断 请 求 ， 并 关闭 本 CPU 的 “高 级 中 断 控 制 器 ”APIC。 此 外 ， 执 行 sys_reboot( ) 的 CPU 还 负 有 关 
闭 全 局 的 外 部 APIC 的 责任 。 然 后 ， 就 要 进行 实际 的 “ 重 司 动 >， 即 重 引导 了 。 

对 系统 的 重启 动 可 以 通过 两 种 不 同 的 方法 进行 ， 一 种 是 通过 BIOS 进行 ， 另 一 种 就 是 直接 在 系统 
中 制造 一 次 “总 清 ”(reset)。 具 体 采用 哪 一 种 方式 取决 于 系统 引导 时 是 否 使 用 了 “root=” 选 择 项 。 如 果 
没有 使 用 这 个 选择 项 ， 那 么 全 局 量 reboot thru bios 为 0， 所 以 会 采用 所 谓 “ 硬 启动 ”制造 一 次 总 清 。 
具体 的 过 程 见 360—371 行 ,我 们 就 不 深入 到 这 些 细节 中 去 了 , 有 兴趣 或 需要 的 读者 可 以 结合 PC 和 i386 
的 有 关 技 术 资 料 自 行 阅读 。 

如 果 在 引导 命令 行 中 使 用 了 “root= ”选择 项 ， 则 系统 会 在 初始 化 的 过 程 中 执行 THR 
reboot_setup( )， 根 据 选 择 项 的 内 容 设 置 reboot thru bios 和 reboot mode 两 个 全 局 量 的 值 ， 作 为 执行 
reboot( ) 系 统 调用 时 的 依据 。 


157 static int __init reboot setup (char *str) 


158 d 

159 while(1) { 

160 switch (*str) { 

161 case ’w : /* "warm" reboot (no memory testing etc) */ 

162 reboot mode - 0x1234; 

163 break; 

164 case 'c': /* "cold" reboot (with memory testing etc) */ 
165 reboot mode = 0x0; 

166 break; 

167 case 'b': /* "bios" reboot by jumping through the BIOS */ 
168 reboot thru bios = 1; 

169 break; 

170 case 'h': /* “hard” reboot by toggling RESET and/or crashing the CPU */ 
171 reboot thru bios = 0; 

172 break; 

173 } 

174 if((str = strchr(str,' ,')) !- NULL) 

175 strtt 

176 else 

177 break; 
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178 } 

179 return 1; 

180  ] 

181 

182  setup('reboot-/, reboot setup); 


如 果 在 命令 行 中 选择 了 通过 BIOS 重 引 导 ， 则 又 有 “ 热 引 导 ” 和 “ 冷 引 导 ” 之 分 ， 二 者 都 通过 
machine_real_restart( ) 进 行 。 然 而 ， 不 管 是 “ 热 引 导 ” 还 是 “ 冷 引 导 ” 总 之 都 要 进入 BIOS。 这 里 所 请 
进入 BIOS 并 不 是 指 像 “int 0x13” 那 样 的 BIOS 调用 ， 而 是 要 进入 整个 BIOS 的 初始 入 口 ， 就 好 像 机 器 
刚 加 电 一 样 。 以 前 我 们 提 到 过 ，BIOS 的 入 口 是 0xffff0， 读 者 可 能 觉得 这 很 容易 ， 只 要 执行 一 条 jmp 指 
令 跳 转 到 这 个 地 址 就 行 了 。 可 是 ， 事 情 并 不 是 这 么 简单 ，BIOS 是 为 16 位 实地 址 模式 设计 的 ， 而 CPU 
此 刻 运行 于 32 位 保护 模式 ， 而 间 采 用 页 式 地 址 映射 ， 这 中 间 有 着 不 小 的 差距 。 当 初 ， 次 CPU 在 受到 
启动 后 是 经 过 了 - 段 “ 跳 板 ”程序 才 从 实地 址 模式 进入 保护 模式 : 而 主 CPU 则 先 执行 了 一 段 引导 辅助 
程序 ， 实 际 上 也 是 “跳板 ”， 才 进入 保护 模式 的 。 而 且 ， 二 者 在 进入 startup_32( ) 以 后 又 经 历 了 加 页 式 
映射 的 过 渡 。 现 在 要 回 到 BIOS 就 得 走 过 相 反 的 过 程 ， 上 台 靠 跳板 ， 下 人 台 要 有 台阶。 而 
machine_real_restart( ) 的 作用 正 是 让 当前 CPU 通过 台阶 下 台 。 这 个 函数 的 代码 在 kernel/process.c 中 : 





[sys_reboot( ) > machine_restart( ) > machine real restart( )] 


254 /* 

255 * Switch to real mode and then execute the code 

256 * specified by the code and length parameters. 

257 * We assume that length will aways be less that 100! 

258 */ 

259 void machine real restart (unsigned char *code, int length) 

260 { 

261 unsigned long flags; 

262 

263 alit s 

264 

265 /* Write zero to CMOS register number Ox0f, which the BIOS POST 

266 routine will recognize as telling it to do a proper reboot. (Well 
267 that's what this book in front of me says -- it may only apply to 
268 the Phoenix BIOS though, it's not clear). At the same time, 

269 disable NMIs by setting the top bit in the CMOS address register, 
210 as we re about to do peculiar things to the CPU. I’m not sure if 
271 “outb p’ is needed instead of just outb’. Use it to be on the 
272 safe side. (Yes, CMOS WRITE does outb p's. - Paul G.) 

273 */ 

214 

275 spin lock irqsave(&rtc lock, flags); 

216 CMOS_WRITE (0x00, Ox8f) ; 

211 spin unlock irqrestore(&rtc lock, flags); 

278 

219 /* Remap the kernel at virtual address zero, as well as offset zero 
280 from the kernel segment. This assumes the kernel segment starts at 
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virtual address PAGE OFFSET. */ 


memcpy (swapper_pg dir, swapper_pg_dir + USER_PGD_PTRS, 
sizeof (swapper pg dir [0]) »* KERNEL PGD_PTRS) ; 


/* Make sure the first page is mapped to the start of physical memory. 


It is normally not mapped, to trap kernel NULL pointer dereferences. */ 


pg0[0] = PAGE RW | PAGE PRESENT; 


/* 

* Use swapper_pg dir’ as our page directory. 

*/ 
asm volatile(’mov] %0, %%cr3”: :"r^ ( _pa(swapper_pe dir))); 


/* Write 0x1234 to absolute memory location 0x472. The BIOS reads 
this on booting to tell it to "Bypass memory test (also warm 
boot)”. This seems like a fairly standard thing that gets set by 
REBOOT. COM programs, and the previous reset routine did this 
too. */ 


*((unsigned short *)0x472) = reboot mode; 


/* For the switch to real mode, copy some code to iow memory. It has 
to be in the first 64k because it is running in 16-bit mode, and it 
has to have the same physical and virtual address, because it turns 
off paging. Copy it near the end of the first page, out of the way 
of BIOS variables. */ 


memcpy ((void *) (0x1000 - sizeof (real mode switch) - 100), 
real mode switch, sizeof (real mode switch)); 
memcpy ((void *) (0x1000 - 100), code, length); 


/* Set up the IDT for real mode. */ 


asm | volatile. ("lidt %0” : : "m^ (real mode id1)); 





/* Set up a GDT from which we can load segment descriptors for real 
mode. The GDT is not used in real mode; it is just needed here to 
prepare the descriptors. */ 

asm volatile — ("lgdt %0” : : "m" (real mode gdt) ) ; 


/* Load the data segment registers, and thus the descriptors ready for 
real mode. The base address of each segment is 0x100, 16 times the 
selector value being loaded here. This is so that the segment 
registers don't have to be reloaded after switching to real mode: 
the values are consistent for real mode operation already. */ 
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329 

330 asm volatile (“movl $0x0010, %%eax\n” 

331 “\tmovl %%eax, %%ds\n” 

332 “\tmovl %%eax, S%es\n” 

333 “\tmovl %%eax, %%fs\n” 

334 “\tmovl 9Weax, %%gs\n” 

335 “\tmovl %%eax, Wess" : : : "eax^); 

336 

337 /* Jump to the 16-bit code that we copied earlier. It disables paging 
338 and the cache, switches to real mode, and jumps to the BIOS reset 
339 entry point. */ 

340 

341 . asm . volatile | (“ljmp $0x0008, %0” 

342 : 

343 : “i” ((void *) (0x1000 - sizeof (real mode switch) ~ 100))); 
344 } 


整个 过 波 的 过 程 都 不 容许 中 断 , 所 以 一 开始 先 关闭 中 断 。 然 后 向 CMOS 存储 器 中 地 址 为 0x8f 处 写 
入 0。 注释 中 说 这 是 BIOS 所 要 求 的 ， 并 且 同 时 也 起 了 关闭 “不 可 屏蔽 中 断 ”NMI 的 作用 ， 我 们 就 不 加 
考证 了 。 


22 #define CMOS WRITE(val, addr) ({ \ 
23  outb p((addr), RTC PORT(0)) ; X 

24  outb p((val), RTC_PORT(1)); \ 

3235 H 


以 前 ， 在 向 页 式 映射 的 过 渡 中 ， 有 一 个 时 期 需要 在 页 面 日 录 中 的 低 区 ， 即 从 虚 地 址 0 开始 的 区 间 
也 保持 部 分 空间 的 映射 使 得 CPU 以 虚拟 地 址 和 物理 地 址 访问 内 存 时 可 以 被 映射 到 相同 的 物理 存储 单 
元 。 现 在 要 向 相反 方向 过 渡 也 得 要 有 这 么 一 个 时 期 ， 所 以 283 行 从 页 面 映 射 目 录 swapper_pg_dir 中 把 
对 应 于 系统 空间 的 256 个 目录 项 复制 到 低 区 ， 放 在 从 月 录 起 点 开始 的 地 方 。283 一 284 行 中 引用 的 常数 
分 别 定 义 于 include/asm-i386/pgtable-2level.h 和 include/asm-i386/pgtable.h 中 : 


8 #define PGDIR_SHIFT 22 


123 #define USER PGD PTRS (PAGE OFFSET >> PGDIR SHIFT) 
124 #define KERNEL PGD PTRS (PTRS PER PGD-USER PGD PTRS) 


这 些 目 录 项 是 从 页 面 映射 日 录 的 高 区 原封 不 动 复制 下 来 的 , 可是 系统 空间 的 第 个 页 面 、 即 pg0I0| 
(EE ISAT PAE ACW KD, BTA A aR A 289 行 )。 这 里 标志 位 _ PAGE_RW 和 
_PAGE_PRESENT 的 作用 个 言 自 明 ， 而 页 面 的 基地 址 则 为 0。 实际 上 ， 这 个 页 面 正 是 现在 要 用 的 。 

由 于 页 面 映射 日 录 已 经 改变 ，294 行 再 装 入 一 次 控制 寄存 器 %cr3。 当 然 ， 因 为 是 在 内 核 中 运行 ， 
原来 %cr3 也 是 指向 swapper_pg_dir， 装 入 前 后 这 个 地 址 并 无 改变 ,但 是 这 条 指令 的 执行 使 CPU 重新 装 
入 页 面 映 射 目 录 。 

如 前 所 述 ， 全 局 时 reboot, mode 的 值 是 (当初 ) 根 据 引 导 命 令 行 中 的 选择 项 设置 的 。 如 果 在 命令 行 中 
选择 了 “ 热 引导 ” 那么 这 个 变量 的 值 就 是 0x1234 ( 见 前 面 的 162 行 )， 和 否则 就 是 0。BIOS 在 执行 中 此 
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测试 内 存单 元 0x472 的 内 容 ， 如 果 是 0 就 要 执行 对 内 存 等 的 自 检 ， 称 为 “ 热 引 导 ” MEA OEE 
检 ， 称 为 “ 冷 引 导 ”。 所 以 ，302 行 把 reboot, mode 的 值 写 入 这 个 内 存单 元 ， 为 BIOS 的 运行 作 好 准备 。 
接 下 来 310~312 行 )， 还 芯 把 两 段 小 程序 复制 到 物理 内 存 第 一 个 页 面 的 顶部。 这 贞 个 小 程序 就 起 
着 “台阶 ”的 作用 ， 一 个 是 real_mode_switch， 另 一 个 是 作为 参数 传 下 来 的 jump_to_bios。 等 -下 读者 
就 会 看 到 这 两 个 台阶 是 如 何 起 作用 的 。 
准备 好 台阶 ， 就 可 以 下 了 。 首 先 (316 行 ) 是 把 中 断 描述 表 换 成 real_mode_idt， 实 际 上 是 把 所 有 的 中 
困 门 和 陷阱 门 都 清除 近 ， 


205 real mode idt = { Ox3ff, 0}; 


全 局 段 描 述 表 的 改变 就 是 关键 性 的 了 。322 行将 新 的 全 局 段 描述 表 real. mode. gdt 4A GDTR. 其 
内 容 定义 于 arch/i386/kernel/process.c: 


184 /* The following code and data reboots the machine by switching to real 


185 mode and jumping to the BIOS reset entry point, as if the CPU has 
186 really been reset. The previous version asked the keyboard 

187 controller to pulse the CPU reset line, which is more thorough, but 
188 doesn’ t work with at least one type of 486 motherboard. It is easy 
189 to stop this code working; hence the copious comments. */ 

190 


191 static unsigned long long 
192 real mode gdt entries [3] = 


193 { 

194 0x0000000000000000ULL, /* Null descriptor */ 

195 0x00009a000000ffffULL, /* 16-bit real-mode 64k code at 0x00000000 */ 
196 0x000092000100ffffULL /* 16-bit real-mode 64k data at 0x00000100 */ 
197 

198 

199 static struct 

200 { 

201 unsigned short size attribute | ((packed)); 

202 unsigned long long * base | attribute ^ ((packed)); 

209. .] 


204 real mode gdt = { sizeof (real mode gdt entries) - 1, 
real mode gdt entries |, 


新 的 段 描述 项 在 数组 real. mode. gdt, entries[ ] 中 。 对 照 第 2 章 中 对 段 描述 项 格式 的 定义 ， 就 可 以 看 
出 ， 下 标 ( 即 段 选择 号 ) 为 1 的 段 描述 项 对 应 于 代码 段 ， 其 基地 址 为 0; 而 下 标 为 2 的 段 描述 项 则 对 应 于 
数据 段 ， 其 某 地 址 为 100; 两 个 段 的 大 小 都 是 64KB。 接 着 (330 THER CS 以 外 所 有 的 段 寄存 器 部 议 吾 
成 0x0010， 即 都 是 数据 段 。 最 后 (341 一 343 行 ) 是 一 条 长 程 转移 指令 limp 前 级 “1” 表 示 长 距离 》。 i 
转 的 日 标 怎样 确定 昵 ? 段 选择 项 是 0x0008， 对 应 于 real mode, gdt, entries. ] 中 的 第 二 项 (195 fT), 即 代 
码 段 ， 所 以 段 的 基地 址 为 0， 而 位 移 量 则 是 (0x1000 一 sizeof (real_mode_switch) 一 100)。 显 然 ， 这 就 是 前 
面 复制 好 的 台阶 real, mode. switch 的 入 口 。 这 段 程序 以 及 jump_to_bios 的 机 咒 代 但 以 数据 的 形式 定义 
于 arch/i386/kernel/process.c 中 : 
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226 static unsigned char real mode switch [ ] = 


220 d 
228 0x66, OxOf, 0x20, Oxc0, /水 movl %cr0, %eax */ 
229 0x66, 0x83, Oxe0, Oxll, /* andi $0x00000011, %eax */ 
230 0x66, OxOd, 0x00, 0x00, 0x00, 0x60, /* orl  $0x60000000, %eax */ 
231 0x66, Ox0Of, 0x22, OxcO, /* movl %eax, %crQ */ 
232 0x66，0x0f，0x22，0xd8， /* movl %eax, %er3 */ 
233 0x66, OxOf, 0x20, Oxc3, /* movl %cr0, %ebx */ 
234 0x66, Ox81, Oxe3, 0x00, 

0x00, 0x00, 0x60, /* andl $0x60000000, %ebx */ 
235 0x74, 0x02, /* jz f */ 
236 OxOf, 0x08, /* invd */ 
237 0x24, 0x10, /* f: andb $0x10, al */ 
238 0x66, Ox0f, 0x22, Oxc0 /* movl %eax, %cr0 */ 
239 33 
240 static unsigned char jump_to bios | ] = 
241 { 
242 Oxea, 0x00, 0x00, Oxff, Oxff /* limp $0xffff,$0x0000 */ 
243} ; 


进入 228 行 以 后 ， 由 于 jmp 指令 将 与 物理 地 址 等 同 的 线性 地 址 装 入 了 IP， 从 此 开始 取 指 令 的 地 址 
束 都 在 低 区 了 ， 这 网 是 为 什么 需要 在 页 面 映射 目录 中 先 作 好 准备 的 操 因 。 接 着 ， 通 过 改变 控制 寄存 器 
%cr0 和 %cr3 的 内 容 将 页 面 映 射 关 闭 。 如果 CPU 的 高 速 缓存 还 开 着 ， 则 还 要 执行 一 条 invd 指令 将 高 速 
缓存 中 的 内 容 作废 。 然后， 又 通过 改变 %cr0 的 内 容 同 到 实地 址 模式 。 执 行 完 238 行 的 mov 指令 ，CPU 
己 经 运行 于 实地 址 模式 了 。 程序 jump, to. bios 的 机 器 代码 就 紧 接 在 real_mode_switchf ] 的 上 方 ， 所 以 执 
行 完 238 行 的 mov 指令 以 后 紧 接 着 就 是 242 行 的 (长 程 jmp 指令 ， 目 标 是 段 地 址 为 0xfff， 位 移 为 0 的 
地 方 ， 即 0xffff0， 这 就 是 BIOS MAL. 
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